人大人科创
张江-硅谷创新创业平台

大数据和科技金融行业简报第四期

Tableau白皮书:2017年大数据十大趋势

1. 数据分析提速。用户希望大幅提升大数据的读取和分析速度,例如把关键KPI实时展现在仪表盘上。因此2017年,一些专注与加快数据查询和分析的独立工具、或Hadoop的扩展会更受欢迎。

2. Hadoop不再一统天下。企业需要更多的分布式、非结构化的存储工具。一些传统数据存储软件(如微软的SQL Server)也开始支持更灵活的数据格式。

3. 引入数据湖。数据湖就像人造水库,很多机构和组织将会选择先建水库并注“水”(原始数据),然后慢慢考虑的用途(如预测分析、机器学习或者强化安全)。

4. 传统的、一成不变的基础架构将被抛弃,更灵活的、需求驱动的基础架构将会崛起。

5. 数据将会更为多元化。高德纳咨询公司将大数据定义为“三个V”:大容量(Volume),高速度(Velocity)和多种类(Variety)。虽然三个 V 都在增长,种类 (Variety) 却正在成为最重要的大数据投资驱动因素。各公司正在尝试集成更多的数据源,并更加专注于“长尾”端的大数据。

6. 机器学习工具将更高速、更容易使用。越来越多的用户选择Apache Spark而非MapReduce作为首选的大数据分析工具。更容易入门、且易于与Office工具整合的Microsoft Azure ML备受欢迎。

7. 自助式分析工具迎来新机会。物联网的普及将产生大量结构化和非结构化数据,且这些数据正被越来越多地部署到云服务中。存储和托管服务领域的创新加快了这一过程,但对数据本身的访问和理解仍然是一个重大的“最后一英里”问题。人们越来越需要可以无缝整合多种云端数据源的分析工具。此类工具让企业能够对任何地点、任何类型的数据进行探索和可视化,从而帮助它们发现物联网投资带来的隐藏的商业机会。

8. 自助式数据准备成为主流。自助式分析平台降低了用户访问和读取Hadoop数据的门槛,但最终用户还想进一步降低数据准备的复杂性,以及节省花费在数据准备上的时间。最近这一领域出现了大量创新,如 Alteryx、Trifacta和Paxata。这些工具可以降低“落后者”使用大数据的门槛,并将在 2017 年持续受到欢迎。

9. 大数据将更加规范和安全。Hadoop日趋成为企业 IT格局中的核心环节。在 2017年,面向企业系统的安全和管控组件将获得更多投资。这一领域已经有了一些重要的工具Apache Sentry可以对数据实施基于角色的细化授权;Apache Atlas是数据治理计划的一部分,它让组织可以在整个数据生态系统中采用一致的数据分类方法;而Apache Ranger为Hadoop提供了集中式的安全管理方案。

10. 智能自动分析工具(如元数据目录工具)兴起。Alation和 Waterline之类的公司使用机器学习来对大数据实行自动查找和标签分类,发掘数据资产之间的关系,甚至通过搜索UI提供查询建议。这类工具是自助式分析工具延长线上的一种自然扩张2017年,对智能化的自助式探索工具的需求以及该类工具的认知能力都将持续提升。

来源:Tableau官网(官方中文版,PDF,需登录)

数据湖和数据分析3.0

什么叫数据湖

根据福布斯杂志2011年的一篇文章Pentaho公司的创始人和CTO詹姆斯·迪克森(James Dixon)最早提出了数据湖(Data Lake)的概念。2014年通用电气(GE)及其出资的数据分析公司Pivotal共同提出了基于Hadoop技术的数据湖架构,适合非结构化数据的管理和分析。GE最初将其应用于TB级别的航空飞行数据的管理和分析。数据湖概念在物联网需求较高的制造行业中受关注。

数据湖收集GPS记录、传感器记录、社交网络上的发言、图像、视频等非结构化的原始数据,将所有的数据通过网络汇总并保存到分布式存储分析架构上。

传统的数据仓库在数据收集时有明确的目的,因此只会收集数据分析所关心的结构化数据,其它无关数据一般会被丢弃,因此无法满足未来可能出现的多元的分析需求。而数据湖强调全面的收集数据,在此基础上另外提供便于经营决策使用的数据分析工具。

来源:大塚商会网上IT词典(日语)

数据湖数据仓库和数据集市的区别

数据湖Data Lake)、数据仓库(Data Wharehouse)和数据集市(Data Mart)可以理解为企业数据管理和分析的三个不同层次,其中数据湖在最底层,数据集市在最上层。

计算机科学家William H. Inmon于上世纪70年代最早提出了数据仓库的概念。根据他的定义,数据仓库是以决策为目标而汇总整理的时间序列数据集,其记录不能被删除或修改。90年代随着硬件特别是硬盘的成本下降,数据仓库在企业级应用市场得到了广泛的应用。

数据集市(港台等地也翻译为资料超市)是指从数据仓库中为了某一特定目的而提取的数据集合。在现实应用场景中,一种不严密但直观的理解是,数据仓库是整个企业所拥有的存储,而数据集市则是为某个特定部门或企业内独立商业单元服务的。因此,一个企业往往拥有多个数据集市。作为数据集市的有者和使用者,部门往往有独立的软硬件设施甚至分析团队。

相对的,数据湖存储的是多种来源的、结构化或非结构化的数据。它可以作为数据仓库的补充,在某些场景下也可以取代传统的数据仓库。企业数据分析网站Kdnuggests一篇文章分析了数据湖、数据仓库以及数据集市的不同。引用数据湖概念提出者詹姆斯·迪克森的话说,“如果把数据集市看做是以瓶装水形式存在的存储 —— 它们清洁有统一规格的包装以方便消费—— 数据湖则是水的一种大规模的、更为自然的存储状态。数据湖的内容从源头流入湖中,各种用户均可以潜入湖中对水进行调查和取样。而数据仓库数据湖的区别可以参照这张表

数据仓库

VS.

数据湖

结构化、经过处理的

数据

结构化的、半结构化或未经结构化的原始数据

写入时确定结构

分析

读取时确定结构

存储大量数据时成本高

存储

为低成本存储而设计

缺乏灵活性,设置难以改变

灵活性

高度灵活,可以随时更改设置

成熟

安全性

正在逐步成熟

商务人士

用户

数据科学家等

因此,可以说数据湖并不是改版的数据仓库。它们是针对不同的目的而设计和优化的不同工具。

Pentaho提出的新概念:数据水景花园

作为企业的BI(商业智能化,Business Intelligence)工具,存储大量数据的数据湖不能、也不适合取代传统的数据仓库。数据仓库要求对数据去除噪声、整合、汇总,而大数据往往有较大的时间延迟、一般没有经过结构化处理、且背后的存储技术也相对并不成熟。

如果有在企业中应用大数据的需求,比较好的方法是建立多个经过初步分类整理的数据“池”,而不是一个巨大的未经任何处理的数据湖。数据在纳入数据池时经过初步的去噪声处理,但依然可以保留丰富的原始数据,以及数据间的相关性。通过拥有多个相互配合的数据池,组成一个企业内部的“数据水景花园”(Data Water Garden)。

来源:Pentaho Partners日本法人官网(PDF,日语)

EMC的数据湖技术为电影“阿凡达2”的制作提供支持

易安信公司(EMC Corporation)日本分公司的法人代表兼总经理大塚俊彦在最近的一次演讲中指出,现在正是第四次工业革命的时代,技术每五年会有10倍的进步,而按此速度2030年的技术将创造相比今天的技术1000倍的性能和价值。举例来说,现在耗时38小时的基因解析将在94秒内完成。

电影产业也在经历大规模的数字化改造制作过程中对胶片的依赖正在逐步消失。《阿凡达2》(预计2018年上映)的制作使用了EMC的数据湖技术,将洛杉矶的摄影棚与新西兰的后期制作公司(负责CG合成等工作)用网络链接起来,实现了大容量的数据传输。

《阿凡达》的CG处理用到的数据量大概在250TB到300TB之间,而《阿凡达2》的数据规模将达到20PB。由于采用了分布式数据湖技术,多个外景地拍摄的数据可以统一汇总、合成和编辑。

EMC的合作伙伴、也是数据湖技术的领先者通用电气公司已经公开宣称将会成为一家软件公司。通过构建涵盖旗下所有产业(航空、能源、健康、铁路、船舶等)的整合网络,将有助于在15年时间内削减3000亿美元

技术进步将进一步推动大规模数据存储的普及。2016年,固态硬盘(SSD)的TCO(总拥有成本)已经逆转了传统硬盘。通过将IT系统和数据中心全部切换为SSD,性价比和IO吞吐效率将提升4倍,且占地面积可以节约70%以上。

来源:日经BP旗下IT Pro网站(日语)

2017年3月11日