1.7 Translations for Reading

近年来,当人们对“物联网”“云计算”“移动互联网”等热词的印象还很模糊时,“大数据”横空出世并发展成燎原之势。2014年巴西世界杯与往届世界杯最大的区别在于其融入了“云计算”“大数据”等众多技术元素。2013年,IBM的研究表明,在人类文明获得的所有数据中,有90%是在过去两年内产生的。2020年,全世界产生的数据达到2009年的44倍。IDC的监测显示,人类产生的数据量呈指数增长,大约每两年翻一番,2020年,全球数据量达到35ZB。据统计,平均每秒都有200万用户使用Google搜索。Facebook有超过10亿的注册用户,每天生成300TB以上的日志数据。同时,传感器网络、物联网、社交网络等技术的快速发展导致数据规模出现爆发式增长。各种视频监控和传感设备也源源不断地产生大量的流媒体数据,能源、交通、医疗卫生、金融、零售等行业也有大量数据不断产生,积累了TB级、PB级的大数据。上述情况表明,现在已经进入大数据时代,大数据已经开始造福人类,并成为信息社会的宝贵财富。数字世界成长的10年如图1-1所示。

1.7.1 什么是大数据?

麦肯锡认为,大数据指的是规模超过典型数据库软件工具捕获、存储、管理和分析能力的数据集。还没有对大数据的数据集大小做出明确的定义。必须采用新技术来管理这种大数据现象。IDC将大数据技术定义为新一代技术和体系结构,旨在通过实现高速捕获、发现和分析,从海量的数据中经济地获取价值。O'Reilly指出,“大数据是指超过传统数据库系统处理能力的数据。这些数据太大、移动太快,或不适合现有数据库架构。要从这些数据中获得价值,必须采用另一种处理方法。”

1.7.2 大数据的特征

作为大数据的数据集必须具有一个或多个特征,这些特性需要在分析环境的解决方案设计和体系结构中进行调整。2001年,Doug Laney发表了一篇文章,描述了电子商务数据的量、速度和种类对企业数据仓库的影响,并初步确定了这些特征中的大多数。为了说明与结构化数据相比,非结构化数据的信噪比更低,还在此列表中增加了真实性。从根本上讲,目标是通过对数据进行分析的方式来及时交付能够为企业带来最佳价值的高质量结果。本节探讨5个大数据特征,这些特征可用于帮助区分大数据与其他形式的数据。图1-2所示的5个大数据特征通常被称为“5V”。

1. 量

大数据解决方案处理的预期数据量非常大且还在不断增长。巨大的数据量带来了不同的数据存储和处理需求,以及额外的数据准备、监管和管理操作。图1-3直观地展示了全球组织和用户每天创建的大量数据。

负责生成大量数据的典型数据源如下。

(1)网上交易,如销售点和银行。

(2)大型强子对撞机、阿塔卡马大型毫米波或亚毫米波阵列望远镜等科研实验。

(3)传感器,如GPS传感器、RFID、智能仪表和远程信息处理。

(4)社交媒体,如Facebook和Twitter。

2. 速度

在大数据环境下,数据可以快速到达,巨大的数据集可以在很短的时间内积累起来。从企业的角度来看,数据的速度代表了数据进入企业边界后,处理数据所花费的时间。为了应对快速的数据流入,企业需要设计高度灵活且可用的数据处理解决方案,并具备相应的数据存储能力。

数据传输速度可能随数据源的不同而变化。例如,MRI扫描图像并没有高流量Web服务器的日志条目生成得频繁。如图1-4所示,当认为以下数据量可以在特定的一分钟内轻松生成时,才能正确地看待数据传输速度:350000条推文、上传到YouTube的300小时录像片段、1.71亿封电子邮件和来自喷气发动机的330GB传感器数据。

3. 种类

数据种类是指大数据解决方案需要支持的多种数据格式和类型。数据种类为企业带来了数据集成、转换、处理和存储方面的挑战。数据种类的可视化表示如图1-5所示,包括金融交易形式的结构化数据、电子邮件形式的半结构化数据和图像形式的非结构化数据。

4. 真实性

真实性是指数据的质量或保真度。进入大数据环境的数据需要进行质量评估,可能会由数据处理机构去除无效数据和消除噪声。与真实性相关,数据可以是数据集信号或噪声的一部分。噪声是不能转换成信息的数据,因此,噪声没有价值,而信号有价值,能够通过它获得有意义的信息。与低信噪比数据相比,高信噪比数据具有更高的真实性。以受控方式(如通过在线客户注册)获取的数据通常比以非受控方式(如博客帖子)获取的数据包含的噪声更少。因此,数据的信噪比取决于数据的来源及类型。

5. 价值

价值是指数据对企业的作用。数据的价值特征与真实性特征有直接关系,即数据的保真度越高,它对企业的价值就越大。因为分析结果存在保质期,所以价值还取决于处理数据所需的时间。例如,与延迟20毫秒的股票报价相比,延迟20分钟的股票报价对交易来说几乎没有价值。具有高真实性强和分析速度快的数据对企业来说具有更高价值,如图1-6所示。从图中可以看出,价值与时间成反比。数据转化为有意义的信息所需的时间越长,它的价值就越小。过时的数据会影响决策的质量和速度。

除了真实性和时间,价值还受以下与生命周期相关的问题的影响。

(1)数据存储得有多好?

(2)在数据清洗期间是否删除了有价值的数据属性?

(3)在数据分析过程中提出的问题类型是否正确?

(4)分析结果是否能准确地传达给决策者?

1.7.3 为什么大数据很重要?

跨业务领域的融合带来了一种新的经济体系,该体系重新定义了生产者、分销商、消费者,以及商品和服务之间的关系。在一个越来越复杂的世界中,业务垂直领域是相互交织的,在一个垂直领域中发生的事情会直接影响其他垂直领域。在一家企业中,这种复杂性使企业领导者很难仅依靠经验(或纯粹的直觉)做出决策。他们需要依靠良好的数据服务来做出决策。通过将数据置于业务运营的核心位置来提供获取新见解的途径,企业能够进行更有效的竞争。

促使人们关注大数据的事件有3个。

(1)组合和查询大数据的技术已经成熟到可以实际部署的程度。

(2)为分析提供支持的基础设施的基本成本大幅下降,使信息挖掘的经济性增强。

(3)企业的竞争压力已经增加到大多数传统战略只提供边际效益的程度。大数据有潜力为企业提供新形式的竞争优势。

多年来,企业已经捕获了结构化交易数据,并使用批处理将数据汇总放入传统的关系型数据库中。对这些数据的分析是回顾性的,应针对过去的业务运营模式对数据集进行调查。近年来,成本较低的新技术使数据捕获、数据存储和数据分析得到了改进。企业现在可以从更多的来源和类型(博客、社交媒体、音频和视频文件)中获取更多数据。优化存储和处理数据的选项已经大量扩展,MapReduce和内存计算(在后面的章节中讨论)等技术为不同业务目标提供了高度优化的功能。可以对数据进行实时分析,该分析作用于完整的数据集,而不是汇总的元素。此外,随着各种可视化技术的应用,用于解释和分析数据的选项数量也有所增加。