- 数据科学与机器学习:数学与统计方法
- (澳)迪尔克·P.克洛泽等
- 2181字
- 2024-11-03 18:26:35
2.4 统计学习中的权衡处理
在监督学习中,机器学习的艺术是使式(2.5)所示的泛化风险或式(2.6)所示的期望泛化风险尽可能小,同时使用的计算资源尽可能少。为了实现这一目标,必须选择合适的预测函数类G。这种选择是由各种因素驱动的,例如:
•类的复杂度(例如,它是否具有足够多的函数以进行充分逼近,甚至包含最佳预测函数g*?)。
•通过式(2.4)的优化程序训练学习器的容易度。
•式(2.3)所示的训练损失如何准确估计G类中由式(2.1)所示的风险。
•特征类型(分类特征、连续特征等)。
因此,选择合适的函数类G通常需要在各冲突因素之间进行权衡。例如,来自简单类G的学习器训练速度很快,但可能无法很好地近似g*,而来自包含g*的丰富函数类G的学习器可能需要大量的计算资源进行训练。
为了更好地理解模型复杂度、计算简单性和估计准确性之间的关系,将泛化风险分解为若干部分是非常有用的,这样就可以研究这些部分之间的权衡效果了。我们将考虑两种这样的分解:近似-估计权衡和偏差-方差权衡。
我们将式(2.5)的泛化风险分解为以下三个部分:
其中,第一部分ℓ*:=ℓ(g*)是不可归约风险,gG:=argming∈Gℓ(g)是G类中最好的学习器。没有学习器预测新响应的风险比ℓ*小。
第二部分是近似误差,它用来衡量不可归约风险和可能的最佳风险(由所选函数类G中的最佳预测函数提供)之间的差异。由于不存在训练数据集τ,确定合适的类G并在该类上最小化ℓ(g)纯粹是数值和泛函分析问题。对于不包含最佳g*的固定G,近似误差不能达到任意小,它可能是泛化风险的主要成分。减少近似误差的唯一方法是扩展类G,使其成为包含更多函数的大函数集。
第三部分是统计误差(估计误差)。它取决于训练集τ,特别是学习器估计G类中可能的最佳预测函数gG的能力。对于合理的估计器,当训练集趋于无穷大时,统计误差应在概率或期望上衰减为零。
近似-估计权衡是两个相互冲突的需求的平衡过程。首先,类G必须足够简单,这样统计(估计)误差就不会太大。其次,类G必须足够丰富,才能得到小的近似误差。因此,在近似误差和估计误差之间存在一个平衡。
对于平方误差损失的特殊情况,泛化风险等于,即预测值相对响应Y的期望平方误差,俗称均方误差。在这种情况下,最佳预测函数由g*(x)=给出。式(2.16)各分量现在可以解释如下:
•第一个分量ℓ*=E(Y-g*(X))2是不可归约误差,因为任何预测函数都不会产生更小的期望平方误差。
•第二个分量为近似误差ℓ(gG)-ℓ(g*),等于E(gG(X)-g*(X))2。其证明过程与定理2.1的证明类似,我们把它留作练习,参见习题2。因此,近似误差(定义为风险差)在这里可以解释为最佳预测值和G类中最佳预测值之间的期望平方误差。
•第三个分量为统计误差,除非G是线性函数类,否则不能直接解释为期望平方误差。也就是说,对于向量β存在g(x)=xTβ。在这种情况下,我们可以将统计误差写成,参见习题3。
因此,当使用平方误差损失时,线性函数类G的泛化风险可分解为
注意,在这个分解中,统计误差是唯一依赖于训练集的分量。
例2.2[多项式回归(续)] 接续例2.1进行讨论。这里G=Gp是x=[1,u,u2,…,up-1]T的线性函数类,并且g*(x) =xTβ*。在X=x条件下,我们有Y=g*(x)+ε(x),其中,ε(x)~N(0,ℓ*),ℓ*=E(Y-g*(X))2=25是不可归约误差。当改变复杂度参数p时,我们想知道近似误差和统计误差是如何表现的。
首先,我们来看近似误差。任何函数g∈Gp都可以写成
g(x)=h(u)=β1+β2u+…+βpup-1=[1,u,…,up-1]β
所以g(X)的分布为[1,U,…,Up-1]β,其中U~U(0,1)。类似地,g*(X)的分布为[1,U,U2,U3]β*。由此得出近似误差的表达式为。为了使误差最小化,我们将关于β的梯度设为零,得到p个线性方程:
记为p×p的希尔伯特矩阵,矩阵的第(i,j)项由给出。因此,上述线性方程组可以写成,其中是左上角大小为p×4的子块,。使用βp表示解:
因此,近似误差由下式给出:
注意观察近似误差是如何随p增加而变小的。在这个特殊的例子中,p≥4时近似误差实际上为零。一般来说,近似函数类G越复杂,近似误差越小。
接下来,我们将探讨统计误差的典型行为。由于,统计误差可以写成:
图2.8说明了式(2.17)表示的泛化风险分解,图中使用的训练集与图2.7计算测试损失的训练集相同。回想一下,测试损失使用独立的测试数据,给出了泛化风险的估计。比较这两幅图,我们发现在本例中两者非常吻合。当p=4时,统计误差的全局最小值约为0.28。由于近似误差是单调递减的,逐渐减小为零,p=4也是泛化风险的全局最小值。
图2.8 特定训练集上的泛化风险是不可归约误差、近似误差和统计误差之和。近似误差随着p的增大而减小到零,而统计误差在p=4后有增大的趋势
注意,统计误差取决于估计值,而估计值又取决于训练集τ。通过考虑统计误差的期望,即在多个训练集上求平均值,我们可以更好地理解统计误差。这将在习题11中进行探讨。
再次使用平方误差损失,对于一般的G,从下式开始第二次分解:
其中,统计误差和近似误差是结合在一起的。利用与定理2.1的证明过程类似的推断,我们得到:
其中,。现在考虑随机训练集T的随机变量D(x,T)。其平方的期望为
如果将学习器视为随机训练集的函数,那么逐点平方偏差项衡量平均值与真实g*(x)的接近程度,而逐点方差项则衡量与其期望的偏差。通过使函数类G更复杂,可以减小平方偏差。然而,通过增加函数复杂度来减少偏差通常会导致方差项的增加。因此,我们要寻找能够在偏差和方差之间取得最佳平衡的学习器,正如通过最小化泛化风险所表示的那样。这称为偏差-方差权衡。
注意,式(2.6)所示的期望泛化风险可以写成ℓ*+ED2(X,T),其中X和T是独立的。因此,它可以分解为