前 言

在计算机领域,新的概念层出不穷:互联网、物联网、移动互联网、云计算、大数据、人工智能……可谓是前浪才上滩头,后浪已汹涌而至。计算机科学与工程领域的研究人员似乎组成了一个智力上的游牧民族。当云计算如日中天的时候,研究人员千方百计和云拉扯上关系,恨不得学生寝室里私拉网线结伙打游戏都要名为“私有云部署”。然而好景不长,大数据又冒出来了,于是乎,云计算的专家又摇身变为资深的数据科学家。各个行业和地方学会的云计算和大数据的专家,竟然一半以上是重复的!前两年,随着AlphaGo战胜李世石和柯洁,人工智能一下子成了专家、学者、政府官员、企业家、投资人津津乐道的未来,各处的人工智能学会、协会、联盟又如雨后春笋一般冒出来。

那么,如何选择人工智能学会的专家,或者人工智能联盟的代表性企业呢?以选择专家为例,下面我们给出一个简单的算法:记Sc为云计算的专家集合,Sd为大数据的专家集合,那么Sc和Sd交集中的所有专家都可以邀请为人工智能的专家。一般而言,这个数目还不足够,那就在剩余的专家(Sc和Sd的并集减去Sc和Sd的交集)中随机选择一些。选人、选企业都可以按照这种算法,厉害吧?

图1从云计算和大数据专家中选取人工智能专家的算法示意

该算法同样适用于从云计算和大数据产业联盟中生成人工智能产业联盟。

与游牧的计算机科学家相比,数学家和物理学家生活在刀耕火种中,每一块耕作过的土地都是确定的,上面长满了庄稼。特别重要的问题——如黎曼猜想之于数学,质子是否衰变之于物理——是所有人公认的,并且可能持续几十年、几百年吸引几代科学家为之奋斗。

显然,一个新兴数学分支的专家集合是不能用图1所示的算法生成的。

那么,游牧就一定不好吗?我们认为不是!看看计算机科学和技术的发展给我们的社会、经济和生活带来了多少翻天覆地的变化,我们就不得不佩服这些循草而居的浪漫骑士们。所以,智力上的游牧民族既有逐利的一面,也有开拓的一面。

如同亘古长存的数学定理和物理规律,游牧的计算机学者们到底有没有给人类的智力世界留下些不变的东西呢?不仅有,而且很多、很美!这本书就是描述计算机学者尤其是数据科学家在开疆拓土的生涯中留给这个世界的瑰宝!

要想成为一个优秀的数据科学家或者数据工程师,是件很不容易的事情。数据库、数据挖掘、统计理论与方法、机器学习、数据安全、分布式计算、数据可视化……可以列出几十门课程。不仅课要上好,还需要通过长期深入的科学研究或商业应用,积累实践的经验。

那么,为什么我们首先要选择数据挖掘这个问题呢?这是因为数据挖掘在整个大数据的学科体系中处于中心位置!数据挖掘的算法可以看成机器学习中的单模型,机器学习又是人工智能中重要甚至主要的方法,数据挖掘还是很多可视化算法的基础。同时,如果不能理解数据挖掘方面的应用需求,很多数据库的功能设计是让人摸不着头脑的。

本书是数据挖掘精髓的浓缩。第1章用通俗易懂的语言回答五个基本问题,包括什么是数据,什么是大数据,什么是数据挖掘,以及数据挖掘能挖掘出哪些东西和会产生什么价值。然后,我们将连续用6章的篇幅,为大家介绍k-均值、k-近邻、朴素贝叶斯、回归分析、决策树和关联规则挖掘。显然,这6种方法并不是数据挖掘的全部,例如我们没有介绍神经网络、支持向量机等。但是我们认为,这6种方法非常简捷、优美、实用,如果掌握了,数据挖掘的理念和思想就基本贯通了,以后要再深入自学新的内容也会非常容易。最后一章会介绍一些实际的应用,让大家看看简单的数据挖掘方法如何产生巨大的价值。

我们为这本书冠以“最简数据挖掘”的名字有三个原因。一是因为最近“最简/极简XXX”之类的书都卖得不错,我考虑起个好名字也许能多卖几本。二是因为我们介绍的方法都是数据挖掘中最简单的——不是说回归分析、决策树就比神经网络、支持向量机简单,因为回归分析也可以非常难,而是说我们介绍的方法在回归分析这个大类中也是最基础、最简单的。三是因为我们所选择的内容范围已经是数据挖掘方向初窥门道的最小范围了,如果去掉其中一两个任意内容,就不完整了。尽管相比通行的教材,本书介绍的内容比较少,涉及的算法比较简单,但不代表它的理念要弱于通行的教材,实际上很多地方还要胜出,特别是对于这些方法中深刻思想的剖析和目前前沿应用场景的分析。

本书还有一个特点,就是花上一两天时间,不用复杂的演算,就能够读完。仔细阅读一本比砖头还厚的教材,与安静地花一两天时间认真读本书相比,再过一两年脑子里面剩下的东西,孰多孰少,还真不好说。

这本书适合什么样的读者呢?我们认为主要有三类人群。

一是非计算机专业的成年人和计算机专业本科低年级学生

这部分人群具有相当的逻辑水平,但是还没有系统学习过数据挖掘、数据分析或机器学习这类课程。如果读者恰好对计算机科学特别是大数据、人工智能等感兴趣,那么本书可以成为一本很好的入门书。

二是优秀的中学生

实际上,我们把握本书的叙述难度是按照优秀中学生能够理解90%作为标准的。一个优秀的中学生,特别是参加过数学、物理或信息科学竞赛的,稍微努努力,应该能够完全理解本书。现在很多学生,中学考试成绩还可以,但是进到大学就“疲软”了,后续发展没有力量,主要是被重复和容易给宠坏了。有点追求的中学生,在中学教材之外,读读这样的书,才能知道如何用全局的眼光看问题,知道怎样把握一个学科宏观的图景。笔者多次在不同场合告诫中学生,读中学的时候,至少在高中阶段,要学一些微积分,在读大学前的那个没有压力的暑假(更早更好),至少要看一下柯朗的《什么是数学》和费曼的物理学讲义。不然进到大学后,看问题还是中学的眼光。

三是科技企业的管理者和相关行业的投资人

很多企业高管和投资人,不妨称之为“商业成功人士”吧,原来也是懂方法、懂技术的,但是吃大席、喝大酒、谈大事多了,不仅身体越来越胖,大脑的密度似乎也下降了,一些基本的逻辑能力都还给老师了。读一些有深度的书,就好像游泳、跑步有利于摆脱亚健康一样,可以看成恢复智力的一种有效手段,特别适合于现在广泛处于“亚聪明”状态的“商业成功人士”。参加几个行业会议,读一本白皮书,看几份PPT……这样掌握的新方向必然肤浅。了解一个方向基本的方法论至少可以用来判断一件事情是否可行,一条道路有没有可能通往成功,一种方法是否有大幅度提高的空间,等等。

世界上有很多极美的事物,光靠文字是表现不出来的,必须要用点公式。本书的公式和算法都非常简单,也非常优美。希望本书,对于青少年而言,是一扇进入高等学府的大门;对于成年人而言,是一间静心求美的禅室,能够唤醒大家久违的记忆。