1.1 什么是数据
对于“数据”这个概念,百度百科的定义如下:
“数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。”
这句话本身就是自相矛盾的,又要逻辑归纳,又是未经加工!例如,中国所有大型农贸交易中,草鱼每天早上的批发价格和零售价格的时间序列肯定是数据,而且是很有价值的数据; 如果以这些数据为基础,计算出每个城市每天早上草鱼的价格的平均值,按照我们通常的理解,也是很有价值的数据。实际上,绝大部分政务数据和互联网数据都是经过加工之后得到的。
所以,我们认为,数据就是可定量分析的记录,至于是否经过加工,有多么原始,都无关紧要。从目前通常的认识来看,数据可以分为两大类:一类是存储在计算机中的一切东西,包括数据表或者电影、音乐、图像、软件、日志记录等,这些都是数据,只不过有些用得更多,更容易处理罢了;还有一类是还没有存储到计算机中的数字化(量化)信息,如我们经常记在本子上的实验数据——这方面最有名的例子是第谷·布拉赫20多年的天文观测记录。当然,现在这些纸上的数据多半很快也会被输入到计算机中。
所以,你自己的一幅手绘漫画如果扫描到计算机中,就是数据(如果有足够多的你的画,未来更聪明的计算机也许能够分析出你的心理问题),但在没有扫描前,一般认为这不是数据。但如果你记录了一棵竹子从破土开始连续 60 天生长的情况(株高),那么不管是放在计算机中还是写在一张纸上,这都是数据。因为这些记录都可以定量化进行分析。这种定义的方法看起来比较蜿蜒,实际上这正是大部分人对于数据是什么的朴素的看法。
图 1-1 给出了信息、数据、知识和价值之间的关系,从数据到知识的过程就是数据挖掘。
图 1-1 信息、数据、知识和价值之间的关系:一部分信息可以成为数据,通过数据挖掘,我们能从数据中得到知识,然后应用这些知识产生价值
大家的直观印象或许是这样的,数据包含了很多没有太大价值的杂乱内容,要通过分析和挖掘才能得到有用的信息,所以“信息”概念的范围要比“数据”小。但在本书中,“信息”泛指一切我们可以感知和传播的内容,是包含“数据”的。举个例子,你傍晚一个人从校园人工湖边走过,看到路边一个美丽清纯的异性向你微微一笑,让你心神摇曳。这一颦一笑都是信息,你成功接收到了,解读为那个异性对你有感觉,于是你心里很激动,并且决定前去搭讪。尽管这笑意是信息,能够发送、传播和接收,并且影响你,但是这无论如何谈不上是数据,因为这既不是一个定量化的内容,也没有被记录在计算机或者你的小本本中等待进一步定量化的分析。在现实世界里,绝大部分的信息没有变成数据,而“大数据时代”的根本就是数据化,把越来越大比例的信息变成数据。
有了数据,通过数据挖掘的办法就可以得到知识。例如,基于淘宝上的商品数据(部分商品销售量和价格的数据可以从公开的网页中合法获得,这也是很多研究人员获得数据的重要途径),利用后面将介绍的数据挖掘算法,可以分析成都市 30~40 岁白领喜欢用什么品牌、什么功能的化妆品,还可以自动描摹今季最流行服装的颜色、纹理、样式等。至于这个知识能不能产生价值,能产生多大价值, 还要看能否找到实际的应用场景。例如,把得到的知识用于精准广告、个性化推荐、服装设计等,获得没有这些知识就无法获得的超额利润。当然,随着大规模机器学习算法的发展,很多时候我们不需要得到知识,就可以直接产生价值。比如,现在淘宝的商品推荐、爱奇艺的视频推荐等互联网企业应用场景,都是基于万亿级的点击记录,利用数亿、数十亿的特征,直接通过在线学习进行精准广告推送和个性化推荐实现的。这些方法能够得到非常好的效果,大幅提高点击率和购买率,但是从数据到价值的整个过程并没有产生人的大脑能够理解的知识——我们还没有能力通过观察一亿个特征学到知识。实际上,十几、二十几个特征就可以碾压我们的脑容量。
本书的重点是讲如何从数据中获得知识,只是在本章的最后一节和全书的最后一章简要介绍这些知识能够产生哪些重大价值。