- 大数据与人工智能导论
- 姚海鹏 王露瑶 刘韵洁
- 5字
- 2024-11-28 17:12:42
第1章 绪论
1.1 日益增长的数据
随着移动通信技术和智能终端设备的飞速发展,全球数据通信总量也逐年激增。一方面,由于数据产生方式发生了从手工生产到自动化生产的改变,人类为了实现对信息的全量化收集,大量使用传感器(目前全球有3 B~5 B个传感器),这些传感器24 h都在产生数据,加快了信息的爆发式增长;另一方面,由于人类活动越来越离不开数据,人类的日常生活已经与数据成为密不可分的整体。伴随着移动智能设备的普及(图 1-1 中的数据显示了近几年全球网络用户数量的变化),移动端的数据已经逐步增长并成为最主要的数据来源:社交通信中产生的文字、语音、图像、视频,生活应用中的位置信息、查询请求信息,娱乐购物产生的产品介绍信息、订单请求信息等无时无刻不在人们周围产生并传递。举例来说,Youtube上每天会有来自全球28.8 k小时的视频上传量,Twitter上每天大概会新增50 M条信息,亚马逊每天产生6.3 M笔订单……欧洲粒子物理研究所的大型强子对撞机,每秒产生的原始数据量高达40 TB。2000年斯隆数字巡天项目(SDSS,Sloan Digital Sky Survey)启动的时候,位于墨西哥州的望远镜在短短几周内收集到的数据比之前天文学历史上收集的数据总和还要多。从科研领域到医疗卫生领域,从银行业到互联网行业,各行各业都面临着需要解决爆发式增长的数据量的难题。
图1-1 2008~2015年全球网络用户数目增长情况
根据南加州大学嫩伯格通信学院马丁的研究,人类在2007年存储了超过300 EB的数据,也就是3×1011GB的数据量(数据单位转化如表1-1所示),已经进入了数据海量激增的时代。人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算即数据处理能力的增长速度比世界经济的增长速度快9倍。大数据的时代已经到来。
表1-1 数据单位转化
1.1.1 大数据基本概念
“大数据”一词最早出现在20世纪90年代的美国,但直到2012年之后,大数据才逐渐获得了业界更多的关注和重视。其覆盖面之广涉及物理学、生物学、环境生态学、金融学以及军事领域、通信领域。当下对“大数据”的相关研究也很火热。
那么,何谓大数据?其实在最开始的时候,大数据并没有一个确切的概念,而是指需要处理的信息量很大,已经超过一半电脑在处理数据时所能使用的内存量,所以迫使工程师们必须改进处理数据的工具。在这种驱动下,谷歌的MapReduce和开源的Hadoop平台的出现使人们可以处理的数据量大大增加,从而提升了对大量数据的处理能力。在本书中,大数据的含义主要是指海量乃至巨量数据,并且数据规模大到无法通过目前普及的计算机系统在用户可容忍时间内获取、存储、处理的数据。
对大数据的认识和利用需要通过相关工具对数据进行提取、分析和利用。所以在后面的内容中相继会对常见数据处理(数据工程)、相关处理工具、处理算法、经典案例进行描述,本书将主要针对大数据基本理论和工程实战进行叙述以帮助初学者快速入门。
1.1.2 大数据发展历程
2008年,电子商务快速发展,传统手段已无法满足其业务需求,大数据的理念和技术被雅虎、谷歌等大型互联网和电子商务公司尝试采用,并用来解决数据量大、数据种类多、数据流动速度快等问题。
2008 年末,“大数据”被美国部分知名计算机科学研究人员所认可,计算社区联盟(Computing Community Consortium)发表了白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》。它打破人们的思维局限,使人们的思维不再局限于用以处理数据的机器,而且指出大数据重要的是其新用途和新见解,而不再是数据本身。
2010 年,随着 Web2.0 时代的到来,社交网络的飞速发展使人类进入自媒体时代,互联网数据进一步激增。智能移动终端的普及也使网络中的数据激增,大数据已如影随形,彻底融入人类社会的生产与生活之中。
2011年,麦肯锡咨询公司的研究报告《大数据:创新、竞争和生产力的下一个新领域》分析了数字、数据和文档爆发式增长的状态,阐述了处理这些数据的潜在价值,分析了大数据相关的经济活动和业务价值链。
2012年大数据发展空前繁荣。2012年3月,白宫网站发布了《大数据研究和发展倡议》,2012年4月,第一家大数据公司Splunk在纳斯达克上市,同年7月,联合国发布了一份大数据政务白皮书,阿里巴巴设立“首席数据官”管理职位。大数据已成为全球热门领域之一。
2014年4月,世界经济论坛围绕“大数据的回报与风险”主题发布了名为《全球信息技术》的报告。报告认为,在未来几年中,针对各种信息通信技术的政策会显得更加重要。同年5月,美国白宫发布了研究报告《大数据:抓住机遇、守护价值》,鼓励用数据推动社会进步,同时也呼吁相应的框架、结构与研究支撑相关进展。
2015 年,国务院印发《促进大数据发展行动纲要》,明确提出要推动大数据的发展和应用,建立大数据下的经济新体制,大数据正式进入中国国家发展战略。
1.1.3 大数据的特征
大容量(Volume):从前面的例子中可以体会到,人类社会活动产生的数据量已经超越300 EB级,并且这个数据还在逐年递增。
多种类(Variety):多样化的数据往往都归类为结构化数据、半结构化数据和非结构化数据。与以往的结构化数据为主要数据的局面不同,现如今的数据多为非结构化数据,而这些包括网络日志、社交网络信息、地理位置信息等类型的数据都对数据处理提出了挑战。
速度快(Velocity):面对如此大的数据体量,须用高效快速的处理方式对数据进行处理,提取有用信息,提高价值密度。
真实性(Veracity):可靠的数据来源能够保障数据的真实性,而只有根据真实可靠的数据才能制定确实可靠的决策。
非结构性(Nonstructural):在获得数据之前无法提前预知其结构,目前绝大多数数据都是非结构化数据,而不是纯粹的关系数据,传统的系统对这些数据无法完成处理。大量出现的各种数据本身是非结构化的或者说弱结构化的,如图片、视频数据等都是非结构化的,而网页等是半结构化数据。
时效性(Timeliness):大数据的处理速度非常重要。数据规模越大,分析处理时间越长。如果设计一个处理固定大小数据量的数据系统,其处理速度可能会非常快,但这种方法并不适用于大数据的要求。在许多情况下,用户要求即时得到数据的分析结果。因此,还需要在实践、处理速度与规模之间折中考虑,寻求新的方法。
安全性(Security):由于大数据高度依赖数据存储和共享,必须寻求更好的方法来消除各种隐患与漏洞,才能有效地管控风险。数据的隐私保护是大数据分析和处理的一个重要问题,而隐私保护也是一个社会问题,一旦对个人数据的使用不当,尤其是涉及大批量的关联数据泄露,将会导致严重的后果。
1.1.4 大数据的基本认识
量变导致质变,大数据的价值正是体现在这里。一方面对大数据的分析和利用可以带来经济利益;另一方面,大数据已经开始融入现代生活的方方面面,从商业到医疗、政府、教育等各领域的决策都离不开对大数据的依赖。
大数据的核心功能是预测,通过将数学算法运用到海量的数据上来预测事情发生的可能性。而这些预测系统的关键在于它们是建立于海量数据的基础之上。系统的数据越多,算法就能更好地改善自己的性能。
大数据的精髓在于分析信息时的三个转变,这些转变是初学者需要注意的概念。第一个转变就是,在大数据时代可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样;第二个改变就是,研究数据量之多使大家不再热衷于追求精确度;第三个就是由于上述两个转变,大数据侧重对相关关系的发掘而不再注重于因果关系。