2.2 机器学习中的统计分析方法

数理统计是数学中最重要、最活跃的学科之一,然而它和机器学习技术结合得并不紧密,但一旦有了从数据查询到知识发现、从数据演绎到数据挖掘的要求,数理统计就获得了新的生命力。数理统计分析作为机器学习的三个主要支柱之一,有许多寻找变量之间规律性的方法,而回归分析方法是其中最有效的方法之一。本节对作为数据挖掘机制之一的回归分析方法进行简单介绍。

机器学习利用了人工智能和统计分析的进步带来的许多好处,这两门学科都致力于模式发现和预测。一些新兴的技术同样在知识发现领域取得了很好的效果,如神经网络和决策树,在足够多的数据和计算能力下,它们几乎不用人的参与就能自动完成许多有价值的功能。机器学习把统计分析和人工智能的算法及技术封装起来,使人们不用了解这些技术的细节就能实现许多有价值的功能,从而使人们把更多的精力专注于所要解决的问题。机器学习与统计分析这两者之间的主要区别在于算法对大数据量的适应性,面对记录数达10万条以上的数据集,机器学习的算法必须仍然具有很好的适应性、鲁棒性。面对周期性数据集和流式数据集的更新时,机器学习需要考虑能对这些增量数据进行处理而不必从头计算一次。机器学习还需考虑如何处理数据集大于内存的问题及并行处理问题。而大多数统计分析技术都基于完善的数学理论和严谨的推理过程,预测的准确度还是令人满意的,但对使用者的数学基础有很高的要求。随着计算机性能的不断增强,便可以利用计算机强大的计算能力,通过相对简单和固定的方法完成复杂的推理过程。机器学习就其算法本身而言,很大一部分可以从数理统计中获得理论解释。但是作为一个整体的研究方向,应该从计算机的层面进行全局的考虑,即从系统的角度进行分析。毕竟机器学习是面向应用的,如果一个算法只能对几百条数据进行分析,那么它的用途将大打折扣。

在现实世界中,某个变量与其他一个或多个变量之间常存在着一定的关系。一般说来,变量之间的关系可分为两类:一类是确定性的关系,也就是通常所说的函数关系;另一类是非确定性关系,变量之间的这种非确定性关系称为相关关系。对于具有相关关系的变量,虽然不能找到它们之间的精确表达式,但是通过大量的观测数据,可以发现它们之间存在一定的统计规律性。设有两个变量XY,其中X是可以精确测量或控制的非随机变量,而Y是随机变量,X变化将使Y发生相应变化,但它们之间的变化关系是不确定的。若当X取得任一可能值x时,Y相应地服从一定的概率分布,则称随机变量Y与变量X之间存在相关关系。设进行n次独立实验,测得实验数据如表2-1所示。

表2-1 实验数据表

其中,xiyi分别是变量X与随机变量Y在第i次实验中的观测值(i=1,2,…, n)。取X=x时随机变量Y数学期望E(Y)|X=x时的估计值来表示这组观测值的最佳值,如式(2.1)。

显然,当x变化时,x的函数,如式(2.2)。

因此可以用一个确定的函数关系式如式(2.3),大致地描述YX之间的相关关系。

其中,函数μ(x)称为Y关于X的回归函数,式(2.3)称为Y关于X的回归方程。回归方程反映了Y的数学期望E(Y)随X的变化而变化的规律。因此,从统计学角度,回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。回归分析按照涉及的变量的多少,分为一元回归分析和多元回归分析;在线性回归中,按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,那么这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多重线性回归分析。

回归分析中有多个自变量时,这里有一个原则问题,即这些自变量的重要性,究竟谁是最重要的、谁是比较重要的、谁是不重要的。然而,要找到合适的回归函数μ(x)是很困难的,通常总是限制μ(x)为某一类型的函数。函数μ(x)的类型可以由与被研究问题的本质有关的物理假设来确定。有些时候,我们很难精确地选择并确定函数μ(x)的类型,只能根据在实验结果中得到的散点图来确定。在确定了函数μ(x)的类型后,就可以设

其中,为未知参数。于是问题就归结为:如何根据实验数据合理地选择参数的估计值,使方程式(2.5)在一定的意义下“最佳地”表现YX之间的相关关系。

解决上述问题可以利用最小二乘法,即要求选取中的参数,使得观测值与相应的函数值的偏差平方和最小。最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和来寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合,其他一些优化问题也可通过最小二乘法来表达。

下面从概率论的观点来说明最小二乘法的理论依据。设当变量X取任意实数x时,随机变量Y服从正态分布N(μ(x), σ2),即Y的概率密度为式(2.6)

其中,μ(x)=μ(x;a1, a2, …, ak),而σ2是不依赖于x的常数。因为在n次独立实验中得到观测值(x1, y1), (x2, y2),…,(xn, yn),所以在利用最大似然估计法估计未知参数a1, a2, …, ak时,有似然函数L

要使似然函数L取得最大值,则应使式(2.7)指数中的平方和取最小值,如式(2.8)取最小值。

也就是为了使观测值出现的可能性最大,应当选择参数使得观测值与相应的函数值的平方和最小。这就是最小二乘法的概率意义。

在式(2.8)中,分别求Sa1, a2, …, ak的偏导数,并令它们等于零,得到式(2.9)

解方程组(2.9)求出参数a1, a2, …, ak的估计值,代入式(2.5)即可得到回归方程。但是,一般来说,解方程组(2.9)是很困难的,仅当函数μ(xi;a1, a2, …, ak)是未知参数a1, a2, …, ak的线性函数时,可以比较容易地求得这些参数的估计值。