1.1 大数据的概念与价值
1.1.1 什么是大数据
信息技术咨询研究与顾问咨询公司Gartner给大数据做出了这样的定义:大数据是指需要用高效率和创新型的信息技术加以处理,以提高发现洞察能力、决策能力和优化流程能力的信息资产。
著名管理咨询公司麦肯锡提出:大数据是指其大小超出了传统软件工具的采集、存储、管理和分析等能力的数据集,具有海量的数据(Volume)、快速的数据处理(Velocity)、多样的数据类型(Variety)和低价值密度(Value)四大特征,简称4V特征。
·海量的数据(Volume):进入信息社会以来,数据增长速度急剧加快。2010年前后,云计算、大数据、物联网技术的高速发展掀起了新一轮的信息化浪潮。我们生活在一个“数据爆炸”的时代。2016年2月22日,社交网络Facebook公布的一份研究报告称,截至2015年年底全世界已有约32亿网民。目前已经是以用户为主导来生产内容的Web2.0时代,用户可以随时随地在博客、微博、微信上发布自己的信息,直播、视频网站的兴起也大大降低了多元化内容生产的门槛,每个互联网的用户都可以产生大量的数据。随着智能设备、物联网技术的发展,越来越多的终端接入到互联网中,数据产生的源头不再只是计算机和手机,智能家居、监控设备、各类传感器等每时每刻都会产生大量的数据。这些视频、图像等半结构化或非结构化数据的规模在快速增长,全球著名的信息技术、电信行业和消费科技咨询、顾问和活动服务专业提供商IDC在一项调查报告中指出,非结构化数据已占企业数据的80%且每年都按指数增长60%。
·快速的数据产生与处理(Velocity):根据IDC的“数字宇宙”报告,预计到2020年,全球数据使用量将达到35.2ZB。随着数据量的急速增长,企业对数据处理效率的要求也越来越高。对于某些应用而言,经常需要在数秒内对海量数据进行计算分析,并给出计算结果,否则处理结果就是过时和无效的。大数据可以通过对海量数据进行实时分析,快速得出结论,从而保证结果的时效性。
·多样的数据类型(Variety):大数据的数据类型繁多,简单地可以分为结构化数据、半结构化数据和非结构化数据。其中,结构化数据主要指存储在关系型数据库(例如MSSQL、Oracle、MySQL)中的数据。不方便用关系型数据库二维逻辑表来表现的数据即称为非结构化数据,其中包括图片、音频、视频、模型、连接信息、文档、位置信息、网络日志等,存储在非关系型数据库(NoSQL)中。和普通纯文本相比,半结构化数据具有一定的结构性,但数据的结构和内容混在一起,没有明显的区分,OEM(Object Exchange Model)是一种典型的半结构化数据模型,也存储在非关系型数据库(NoSQL)中。相对于以往便于存储的结构化数据,非结构化数据越来越多,多类型的数据对数据的处理能力提出了更高的要求。
·低价值密度(Value):价值密度低是大数据的另一个典型特征。在信息存储、数据处理技术比较落后的时代,由于技术的限制,企业对大规模数据的处理能力不足,一般通过采样分析的方式减少需要处理的数据量。数据量与输出的价值之间的比率较高。大数据时代选取数据的理念是选择全体而非样本,处理数据时会将所有数据纳入处理范围。这些海量的数据单独拿出来相关性都很低,只有在宏观的角度对所有数据进行分析才能得到有价值的结果。大数据价值密度低,但相对于采样分析,大数据提供的价值要更为全面。
1.1.2 大数据的来源
数据科学家维克托·迈尔·舍恩伯格在其著作《大数据时代》中提到,世界的本质就是数据,大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。随着技术的发展,在日常生产和生活中数据越来越多地被记录和存储下来,人类社会信息化的进程被不断地向前推进。在信息化过程中产生的大量数据,根据其产生来源可以分为两类:社交数据和机器数据。
·社交数据:在Web1.0时代,内容生产是由网站运营者来主导的。进入Web2.0时代,用户成为内容生产的主力。每个用户都可以在网络上生成大量数据。
中国互联网络信息中心(CNNIC)2017年1月22日发布的第三十九次《中国互联网络发展状况统计报告》显示,截至2016年12月,我国网民规模达7.31亿,互联网普及率达到53.2%。其中,手机网民规模达6.95亿,占比达95.1%,增长率连续3年超过10%,手机在上网设备中占据主导地位。据微博发布的2016年第三季度财报显示:截至2016年9月30日,微博月活跃人数已达到2.97亿。里约奥运会期间,与之相关的博文量就达6.3亿。截至2016年12月,微信及WeChat合并月活跃用户数达8.89亿,公众平台汇聚超1000万公众账号,20万第三方开发者。阿里巴巴2016年度活跃用户为4.34亿,移动端月活跃用户4.27亿,淘宝日活跃用户打开手机淘宝7次,每天评论超过2000万条。百度目前数据总量10亿GB,存储网页1万亿页,每天大约处理60亿次搜索请求。
Google上每天需要处理24PB的数据;全球每秒发送290万封电子邮件;每天会有2.88万小时的视频上传到YouTube,足够一个人昼夜不息地观看3.3年;推特上每天发布5000万条消息,假设10秒浏览一条信息,这些消息足够一个人昼夜不息地浏览16年;亚马逊每天产生630万笔订单,每个月网民在Facebook上要花费7000亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB。
·机器数据:随着物联网的发展,联网的设备不再局限于计算机和手机,每个加载了智能芯片的设备都会成为一个网络节点。汽车、电器、生产设备等各种设备都将接入互联网。连接在互联网中的各种传感器会不断地采集并上传大量的数据,包括用户数据及其本身运行所生成的日志数据。
2015年,全球智能硬件零售量为1.3亿部,其中中国市场智能硬件销售量达0.4亿部,占全球份额的32%。全球有46亿台照相手机,每年售出数亿台支持GPS的设备,现在有300亿个RFID(射频识别技术,俗称电子标签,应用范围广泛,如图书馆、门禁、食品安全溯源等)。
物联网最显著的效益就是它能极大地扩展我们监控和测量真实世界的能力。对异常数据的发现依赖于长期而全面的数据记录和趋势分析。以智能手环为例,它会记录用户在穿戴期间的心率或者运动量,并上传到互联网进行存储,通过对这些数据的统计和分析可以发现其中的异常数据,及时发现用户的健康问题。
1.1.3 大数据有什么价值
1.大数据已然上升到各个国家的战略规划中
大数据是新时代的“石油”,是一种新的战略资源。现代科学技术的发展使我们有能力把这种资源利用起来,在更多的领域获得并使用全面完整的数据。企业深入探索现实世界的规律,得到更多的商机,更有针对性地做出决策、改善产品和优化流程。
大数据是促进创新和提高生产力的重要技术,直接影响到国家竞争力。各国政府对大数据的发展高度重视,将打造数据强国作为国家战略,纷纷出台相关政策来扶持大数据产业。
2012年3月,美国政府公布了《大数据研究发展计划》,提出要提高美国从大型复杂数据中提取知识和观点的能力,加快科学与工程研究步伐,加强国家安全,改进教学研究。同年11月公布的具体研发计划涉及各级政府、私企及科研机构等多个大数据研究项目。
日本政府于2013年6月发布了《创建最尖端IT国家宣言》,全面阐述了2013年至2020年间以发展开放公共数据和大数据为核心的国家战略,强调“提升日本竞争力,大数据应用不可或缺”。
2013年10月,英国政府发布《英国数据能力发展战略规划》,对数据能力的定义和优化进行了系统性的研究分析,在如何发展大数据产业方面提出了举措建议,旨在利用数据产生商业价值,促进经济增长,打造信息强国。
2015年8月,中国国务院印发《促进大数据发展行动纲要》,系统部署大数据发展工作。《促进大数据发展行动纲要》提出,推动大数据发展和应用,在未来5至10年打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。
2016年3月17日,《中华人民共和国国民经济和社会发展第十三个五年规划纲要》发布,其中第二十七章“实施国家大数据战略”提出,把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新;具体包括:加快政府数据开放共享、促进大数据产业健康发展。
2.大数据能给企业带来什么
对于企业来说,数据是一种信息资产,企业可以通过大数据应用将这种资产真正利用起来以达到提高企业效益的目的。大数据对企业的价值主要体现在以下四个方面:精准的市场营销、辅助决策、催生产品和服务、改善产品和流程。
·大数据提高营销能力:大数据应用可以通过对大量消费数据的挖掘,刻画出每个用户的消费喜好。利用大数据的成果,企业可以由单一的营销策略升级到针对用户的个性化营销,给客户推销他真正喜欢和会购买的产品或服务。
·大数据提高决策能力:当前,企业管理者更多地是依赖个人经验做出决策。对于复杂的企业管理和市场运作而言,个人能够同时处理的信息有限。决策所依据的信息完整性越高,管理者做出理性决策的可能性就越大。大数据能够有效地帮助各个行业用户做出更为准确的商业决策,从而实现更大的商业价值。
·大数据催生产品和服务:在大数据时代,以利用数据价值为核心的新型商业模式正在不断涌现。依托大数据技术提供医疗服务可以让医生更加了解病人的健康情况,及时发现问题并做出正确诊断;在金融业方面,利用大数据技术可让企业更快捷、更立体地评价企业和个人信用,降低业务风险,提高资金流通效率。以阿里巴巴为例,阿里巴巴基于海量的用户消费数据建立了自己的网络数据模型和用户信用体系,创建蚂蚁金服,推出新型的金融产品,打破了传统的金融模式,使贷款不再需要抵押品和担保,而仅依赖于数据,减少了大量流程,使企业和个人能够迅速获得所需资金。
·大数据有助于改善产品和流程:通过对产品使用情况的收集分析,企业可以针对性地对产品迭代,使产品更贴合用户的需求。以视频网站为例,企业可以通过点击量及用户停留时间分析用户的喜好和审美趋势,了解什么样的标题和内容更容易吸引到用户,从而在内容上进行调整。企业还可以通过挖掘业务流程各环节的中间数据和结果数据,发现流程中的瓶颈因素,找到改善流程、降低成本的关键点,从而优化流程,提高服务水平。
1.1.4 如何挖掘企业大数据的价值
1.企业有价值的数据在哪里
企业中最有价值的数据主要有客户数据、财务数据和生产数据。
通过对客户数据的分析,企业可以在现有客户中挖掘出更有价值的客户并重点关注。
财务数据的分析是企业的一项重要工作,财务数据可以揭示企业财务状况,比如企业的偿债能力、盈利能力、营运能力等。运用大数据技术,企业可以获得更详细的分析结果,挖掘难以察觉的现象之间的相关性,有利于企业在运营上做出更好的决策。
生产数据并不单单指产品生产流程中各种生产设备的数据,也包括服务类的公司在项目实施过程中可收集到的相关信息。挖掘生产数据中的信息,企业可以发现流程中出现滞后的环节,从而进行调整优化,提升企业的工作效率和服务水平。
2.大数据价值发现的基本流程
对大数据价值的发现主要分以下三个流程:数据采集、预处理及导入、数据分析及挖掘。
·数据采集:大数据的采集是指利用多种工具从客户端(计算机、手机端或者传感器形式)获取数据。
·预处理及导入:在数据采集阶段中,采集端本身会有不同的存储工具,数据被分散存储在这些工具中。企业如果要进行有效分析需要实现对这些数据的统一管理,因此当我们采集到数据后,会将这些数据导入到分布式数据库(如Hadoop的HBase)或者分布式存储集群(如Hadoop的HDFS)中,并且在导入时做一些简单的数据清洗和预处理工作,来满足数据的计算需要。
·数据分析及挖掘:获取数据之后用户需要从数据里面发现有价值的信息从而帮助企业进行业务运营、改进产品以及优化决策。数据分析及挖掘即通过算法模型对数据进行处理并发现数据中的价值。数据挖掘与数据分析不同的地方在于,数据分析预设了一个问题在数据中找出结果,是寻找已知的价值,而数据挖掘则是在海量数据上进行基于各种算法和模型的计算,挖掘出未知的价值。数据分析及挖掘可以让我们切实有效地将数据的价值利用起来。