第1章 引论

1.1 什么是机器学习

“机器学习”这个词听起来似乎很深奥,但完全可以用比较通俗的说法进行描述,其本质就是寻找数据间的关联或者关系。以后我们会逐步展开说明数据之间关联的具体定义,但是直观上说无非是两种,一种是确定性的关系,如函数的对应关系;另一种是不确定的、带有一定概率意义上的或者统计上的关系,比如联合分布、条件分布等。

虽然对机器学习的深入研究需要用到高深的数学和计算机知识,但其实机器学习的具体例子在我们平时的工作和学习中早已应用。小学生经常做的一些数学题目中,特别是找规律的题目,都可以看到机器学习的影子。例如,从下面这些二维数据中找出对应关系,并在问号处填上合适的数字。

(1,2),(2,4),(3,6),(4,8),(5,10),(6,?)

通常小朋友会填写12,这就是一个典型的机器学习问题。当我们看到这组数据以后,很快会发现每组数字的第二个是第一个的两倍,从而在给出6以后,我们应该填写12。

再看一个例子,下面序列中的数字是一个一个列出来的

1,1,2,3,5,8,13,21,34,55,?

通过观察可以发现,前面的若干项正好是斐波那契数列,所以我们可以在最后填写89。

上述两个问题相对比较容易,但是有些问题就比较困难。例如,给定一个序列,根据前面几项,预测最后一个数字是多少。

41,23,9,7,1,3,−1,?

仔细观察可以发现,每两项之和都是2的幂次,而且幂次依次递减,由此可知应该填写1。类似的问题我们应该在很多场合都遇到过。除了这些数据题型以外,还有很多图形的对应关系,这里不再一一举例。

总结上述问题,可以归纳抽象出它们共同的要素。给出一组数据,其背后存在一个确定的对应关系,这种关系可能是数组的第一个分量和第二个分量之间的关系,也可能是从第一个数据到第二个数据之间的迭代关系。这些具体关系并不为我们所知,展现在我们面前的只是这些关系的一个表象,给出的数据也只是所有可能的数据中的一个子集,我们的目标是通过这个子集去了解全貌,从而找到隐藏在背后的对应关系。

下面再用数学语言来叙述机器学习的问题。有两个集合A,在它们之间有对应关系fA。这种对应关系通常被称为函数,从而对于x有唯一对应的fx)∈A,但是这个对应关系f不为我们所知。为此,我们能够接触到的是全集上的一个子集S,同时每个xS对应的fx)也已知,即作为数据

{(x,fx)):xS}

是已知的,但是对应关系的算法描述我们仍然不知道。我们需要通过这组数据(也称为样本数据)试图去寻找本源的对应关系,从而在全集中任意给定一个新的x,可以知道对应的y=fx)。

上述使用函数的数学方法虽然结果令人满意,但是未必满足机器学习所有的问题形式。下面考虑另外一个问题。一个袋子里有很多个球,一部分是红色的球,一部分是黑色的球。分别把球一个一个拿出来,看到颜色以后再放回去。例如,它们分别是红、红、黑、红、黑、黑、红、红。那么下一个拿出来的球应该是红色还是黑色呢?这个问题就带着强烈的概率色彩。如果取球过程充分随机,绝对不可能因为取出来红色和黑色的球就断言所有球的颜色仅仅有红色和黑色,显然什么颜色的球都有可能出现,所以我们仅能在概率的意义上来问取到红色球和黑色球的概率分别是多少。

把这个概率问题用数学语言来叙述就是:有两个随机变量X,Y,它们的联合分布记为px,y)。虽然联合分布没有给出具体形式,但是给出了有限个样本点集(x1,y1),(x2,y2),···,(xn,yn)。我们需要从中学习到联合分布。一旦联合分布给出,就很容易计算边缘分布

以及对于任意一个x,对应的是y的条件分布

经过我们抽象出来的问题,无论是确定性的问题还是统计性的问题,都涉及学习和预测。学习过程可以看成是从样本内找到一定关系;预测过程就是把学习到的关系使用在样本外。