第二节 数据到大数据

微软研究院的技术专家吉姆·格雷提出著名的“新摩尔定律”,认为人类有史以来的数据总量,每隔18个月就会翻一番。并提出将科学研究分为四类范式,依次为实验归纳、模型推演、仿真模拟和数据密集型科学发现。其中,最后的“数据密集型”,也就是现在我们所称的“科学大数据”,前三类范式都是基于因果关系的探究,“数据密集型”范式则是基于对数据的相关关系探究,使科学研究由传统的假设驱动向基于科学数据进行探索的科学方法转变,并且认为一个完整的科学研究周期包含四个部分:数据采集、数据整理、数据分析及数据可视化。而第四类范式的产生基于一个前提:大数据。

随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。动辄达到数百TB甚至数十至数百PB规模的行业大数据已远远超出了现有传统的计算技术和信息系统的处理能力,因此寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求。百度目前的总数据量已超过1000PB,每天需要处理的网页数据为10~100PB;淘宝累计的交易数据量高达100PB; Google每天需要处理2. 4PB数据;Twitter每天发布超过2亿条消息;全球每秒发送290万封邮件;每天有2.88万小时视频上传到YouTube;新浪微博每天发帖量达到8000万条;中国移动一个省的电话通联记录数据每月为0.5~1PB;一个省会城市公安局道路车辆监控数据三年可达200亿条、总量120TB。据世界权威IT信息咨询分析公司IDC研究报告预测:全世界数据量未来10年将从2009年的0. 8ZB增长到2020年的35ZB(1ZB=1000EB=1000000PB),10年将增长44倍,年均增长40%。这些大量数据的产生一方面说明数据已经渗入到各行各业中,成为重要的生产资源;另一方面,对人类的数据应用与管理也提出新的挑战。图2-3所示为反映Facebook活跃程度的地图。

图2-3 反映Facebook活跃程度的地图

2011年5月,麦肯锡公司发布《大数据:下一个创新、竞争和生产力的前沿》的研究报告。作为从经济和商业维度诠释大数据发展潜力的第一份专题研究成果,该报告系统阐述了大数据概念,详细列举了大数据的核心技术,深入分析了大数据在不同行业的应用,明确提出了政府和企业决策者应对大数据发展的策略。报告主要内容包括以下几点。McKinsey Global Institute. Big Data: The next frontier for innovation, competition, and productivity[R], 2011,5.

(1)认为数据量呈现指数级增长。麦肯锡估计,全球企业2010年硬盘上存储了超过7EB(1EB等于10亿GB,相当于美国国会图书馆中存储数据的4000多倍)的新数据,消费者在个人计算机等设备上存储了超过6EB的新数据。

(2)不同行业的大数据强度和内容各有不同。各个行业都呈现大数据增长的现象,但不同行业数据存储量有所不同,数据产生和存储的类型在不同行业之间也有所区别。证券、投资服务及银行等金融服务领域拥有最高的平均数字化数据存储量,通信和媒体公司、公用事业公司及政府等企业和组织也有规模显著的数字化数据存储。这些数据强度高的行业更加具有通过大数据来创造价值的潜力。

(3)现有趋势将继续推动数据增长。在各部门和地区之间,企业正在加快收集数据的步伐,推动传统事务数据库的增长;医疗卫生等面向消费者的行业中,多媒体的广泛使用刺激了大数据的持续扩张;社交媒体的广泛普及和物联网中应用的不断创新都进一步推动大数据的不断增长……这些相互交叉的动力刺激了数据的增长,并将继续推动数据池的迅速扩张。

(4)大数据是继传统IT之后下一个提高生产率的技术前沿。只要有适当的政策推动,大数据的使用将成为未来提高竞争力、生产力、创新能力及创造消费者盈余的关键要素。同时,麦肯锡研究了“大数据”中尚未开发的巨大价值。例如,充分利用“大数据”的零售商将能够使营业利润率提高60%以上。“大数据”在公共领域也有极大潜力可以挖掘。如果美国医疗保健行业有效利用“大数据”,就能把成本降低8%左右,从而每年创造出3000多亿美元的产值。在欧洲发达国家,如果政府利用“大数据”提高运作效率,那么将节省至少1000亿欧元(约1490亿美元)的成本。而利用个人位置数据(personal location data)提供的服务将可以创造6000亿美元的消费者剩余(consumer surplus)。

麦肯锡对医疗保健、零售、公共领域、制造、个人位置数据这五大领域进行重点分析,提出了可以利用“大数据”的五种方法。

(1)以时效性更高的方式向用户提供“大数据”。在公共领域,跨部门提供“大数据”能大幅减少检索与处理时间。在制造业,集成来自研发、工程、制造单元的数据可以实现并行工程,缩短产品投放市场的时间。

(2)通过开展数据分析和实验,寻找变化因素并改善产品性能。由于越来越多的交易数据都以数字形式存在,各机构可以收集有关产品或用户的更加精确和详尽的数据。

(3)区分用户群,提供个性化服务。“大数据”能帮助企业对用户群进行更加细化的区分,并针对用户的不同需求提供更加个性化的服务。这是营销和危机管理方面常用的方法,但也可以为公共领域等带来变革。

(4)利用自动化算法支持或替代人工决策。复杂分析能极大改善决策效果,降低风险,并挖掘出其他方法无法发现的宝贵信息。此类复杂分析可用于税务机构、零售商等。

(5)商业模式、产品与服务创新。制造商正在利用产品使用过程中获得的数据来改善下一代产品,以及提供创新性售后服务。实时位置数据的兴起带来了一系列基于位置的移动服务,如导航和人物跟踪。

应该说,人类迈入大数据时代是数据从量变到质变的结果,爆炸性增长的数据为大数据的产生提供了基础条件,“用数据说话”成为这一时代人类普遍的思维方式。随着数据体量的增大和类型的增多,传统数据管理、分析和处理模式已经不能适应大数据发展的要求,“大数据”因此孕育而生。

一、大数据产生条件

大数据的产生有一定的时代背景因素,也是数据本身内因和外因共同作用的结果。内因指的是数据本身的价值,外因则包括政府因素及技术因素等。

(1)数据价值得到重新认识。尽管人们对于数据价值的认识古已有之,事物发展的本质也隐藏在各种数据之中,但由于人们观察视角的单一和片面,同一事物可能会有不同的数据描述,并且各类数据明显割裂和碎片化,没有一个组织或人有能力、有兴趣把对同一事物的各类数据描述进行整合统一,从而挖掘出现象后面的本质。以气象数据为例,普通人关心的可能只是当天或未来几天的数据,气象部门可能关注的是本区域本年度的数据,到国家层面最多可能也就关注近几年本国的气象变化,但如果有一个系统能够把全球所有国家有记录以来的所有气象数据进行整合分析,寻找近几十年甚至几百年气象变化趋势,对研究全球气候问题、生态环保问题、人口迁移问题等一系列全球与地区性问题应该会有重大帮助。而这一系统的建立关键是多源数据的收集。这个例子实质反映一个问题:研究一个问题,不同的数据能够提供不同的视角,数据之间可以相互补充,对问题的研究将会有更深入的理解。诚然,单一角度的数据有价值,但对多源数据、多维数据的整合分析将能创造更大的价值。

数据代表事实,对数据的重视意味着对客观世界的尊重与求知。以往人们对数据的理解与运用大多夹杂着个人主观偏好和短期的功利主义目的。但在互联网时代下,数据的真正价值并非其所带来的短期利益,而是数据本身的驱动效应:即通过数据与其他行业的融合驱动产业发展,提高各个行业通过数据解决问题和价值增值的能力,并且弥合长期以来的学科分裂与独立的现象,强调不同学科与不同部门的共同协作,使学科之间相互集成,产生新的价值。

随着人类对数据价值的重新认识,大数据开始成为信息时代的重要发展标志。2011年IBM的沃森超级计算机每秒可扫描并分析4TB(约2亿页文字量)的数据量,并在美国著名智力竞赛电视节目《危险边缘》上击败两名人类选手夺冠。后来纽约时报认为这一刻为一个“大数据计算的胜利”。2013年,互联网巨头纷纷发布机器学习产品,IBM Watson系统、微软小冰、苹果Siri,标志着大数据进入深层价值阶段。2015年,《Computing Research》杂志发布《2015大数据市场评论》,该评论发现在过去的一年中,没有将大数据和大数据分析集成到其运营过程的企业的比例从33% 降到了16%。大数据开始作为企业决策的重要支撑,在商业市场上发挥巨大价值。

(2)政府大力推动大数据战略。随着人们对数据价值的重新认识,政府开始积极推动大数据战略,并把它上升为国家战略层面。作为大数据的策源地和创新引领者,美国大数据发展一直走在全球前列,美国最重要的数据开放平台就是奥巴马政府在2009年推出的Data.gov,它涵盖了农业、气象、金融、就业、人口统计、教育、医疗、交通、能源等大约50个门类,还加入了数据的分级评定、高级搜索、用户交流及和社交网站互动等功能。2013年5月,奥巴马政府更是宣布了“大数据的研究和发展计划”,根据这一计划,美国希望利用大数据技术在多个领域实现突破,包括科研教学、环境保护、工程技术、国土安全、生物医药等,在许多大学里也开始开设诸如机器学习这样全新的课程,培养下一代的“数据科学家”。2014年5月,美国白宫发布了2014年全球“大数据”白皮书的研究报告《大数据:抓住机遇、守护价值》,报告鼓励使用数据以推动社会进步,特别是在市场与现有的机构并未以其他方式来支持这种进步的领域,同时,也需要相应的框架、结构与研究,来帮助保护美国人对于保护个人隐私、确保公平或是防止歧视的坚定信仰;2010年,德国联邦政府启动“数字德国2015”战略,将物联网引入制造业,打造智能工厂,工厂通过CPS(网络物理系统)实现全球互联;2014年,“大数据”首次出现在当年的中国《政府工作报告》中。2015年,“十三五”规划中将大数据作为国家级战略,要求“实施国家大数据战略,推进数据资源开放共享”,当年9月颁布《促进大数据发展行动纲要》的通知,制定了十项大数据工程(见附录A)。

(3)大数据技术的发展。大数据技术的发展是数据时代发展到大数据时代的关键,现有的大数据技术大多基于信息科学,包括采集技术、挖掘技术及统计分析技术等;还有一些其他技术,包括Hive、Storm、R语言等;还有大数据挖掘过程中的各类算法技术、云计算、物联网技术等。

正是在以上几个方面的共同作用下,再加上互联网中海量信息的产生,使得大数据从一种可能变为一种现实。

二、大数据来源

大数据基于大量数据之上,而大量数据的产生与互联网的发展紧密相关,互联网的本质是分享、互动、虚拟、服务,而这些内容都需要数据进行连接,特别是相关互联网技术的发展,使大数据成为现实,如云计算技术。云计算之前,数据被分散在各个机构、个人的服务器中,各自为政,大家都占有一定的数据,但无法获取所有数据。而云计算的出现使大量数据被放置在数据中心,即所谓的“云端”,这些数据中心为大数据的发展提供数据支撑;再如社交媒体的发展,大型的社交网络平台事实上构成了以“个人”为枢纽的不同的数据的集合,赵国栋,易欢欢,等.大数据时代的历史机遇——产业变革与数据科学[M].北京:清华大学出版社,2013: 12.个人的情感、态度和行为都可以通过社交媒体数据体现出来;还有智能终端的普及和各类App应用的推广,使个人数据呈爆发性增长。总的来说,大数据来源主要包括以下几点。

(1)企业应用数据:包括网络企业、工业企业等产生的各类数据。根据中国互联网协会中国网站排名公布的最新数据显示,截至2015年7月13日,国内网站独立访问量五强名单分别是百度、腾讯网、360安全中心、新浪网、淘宝网。排名第一的百度,在一天中,每百万人口中访问人数近40万。

(2)个体数据:主要指网民利用互联网产生的数据,包括微博、微信、移动通信、电子商务、企业应用的相关评论等。

(3)机器产生的数据:包括服务器日志、传感器数据、医疗数据、图像和视频监控数据、气象数据、环境数据、二维码和条形码数据、交通数据等。这部分数据大多集中在商业服务器和政府公共服务领域,体量庞大且应用价值高。

在未来,随着移动互联网和智能终端的广泛运用,数据的来源将越来越多样化,数据体量也会不断增大,而数据价值开发的难度也会不断增强,数据提取技术将不断创新。因此,各行各业应努力适应并融入这种变革之中。