§3.2 最小二乘估计
一、最小二乘估计量
对于两个解释变量的回归模型,其样本回归函数为

其中,
,
分别为β1,β2,β3的估计值。根据最小二乘准则,应选择使残差平方和最小的
,
,
。在给定Y,X1,X2的n个观测值时,同时选择
,
,
使下式取最小值:

其中i表示第i次观测。式(3.21)就是对从1到n的观测值求和。
在含有多个解释变量的一般情形中,我们得到样本回归函数:

我们的目的就是得到式(3.22)中的估计值,
,……,
,使残差平方和最小。就是使

最小的估计值,
,……,
。据微积分知识,我们知道这个最小化问题就是使用多元微积分求解。其原理与一元线性回归方程的最小二乘法相同。得到
,
,……,
这k个未知变量的k个线性方程:

该方程组称为正规方程组,求解该方程组,可得到,
,……,
的值。即使是较小的方程组,手工计算也是很繁重的工作。借助计量经济分析软件,对较大的n和k,也能很快求解这些方程。如果使用普通最小二乘法而得到了式(3.16)的样本回归函数,我们就称其为:将Y对X1,X2,……,X k进行了回归。
将式(3.24)简化整理后可得

写成矩阵形式为

又由于

则式(3.26)可以用矩阵表示为

式(3.27)为正规方程组的矩阵表达式。在经典假定6满足的情况下,R(X)=k,k阶方阵X′X为非奇异矩阵,逆矩阵(X′X)-1存在,因此可以求解矩阵方程(3.27),得到解为

上式中的就是β的最小二乘估计量。
利用矩阵求导运算可以非常简单地得到最小二乘估计量。对于矩阵形式的回归方程Y=Xβ+U,其样本回归方程为Y=X+e,因此残差平方和可以表示为

其中

为n×1阶残差列向量。
对残差平方和求导使其为0,可得

整理后可得到正规方程组(3.27)

因此,β的最小二乘估计量为

例3.1 工资回归模型。
利用横截面数据估计参数得到如下包含三个解释变量的模型:

其中Y为工资,X2是受教育年限,X3为工龄,X4是现任职务的任期。
在式(3.30)中,系数0.092表示在保持X3和X4固定不变的情况下,劳动者多受一年教育,lnY增加0.092,即工资增加9.2%。也就是说,如果有两个劳动者具有同样的工龄和现职任期,在受教育水平相差一年时,X2的系数表示了预计工资的差别。
二、判定系数R2及调整的判定系数R2
1.判定系数R2
在一元回归模型中,判定系数R2是回归方程拟合优度的一个度量,它给出了在被解释变量Y的总变差中由(一个)解释变量X解释了的比例或百分比。将其推广到多元回归模型中,判定系数依然为解释平方和ESS与总平方和TSS的比值,即

与一元回归模型一样,R2也是一个在0与1之间的数。R2的值越接近于1,模型拟合就好。当R2=1时,RSS=0,表明被解释变量Y的变化完全由解释变量X2,X3,……,Xk决定。R2=0时,ESS=0,表明Y的变化与X2,X3,……,Xk无关。
2.调整的判定系数R2
判定系数R2的一个重要性质是:在回归模型中增加一个解释变量后,它不会减少,而通常会增大。即R2是回归模型中解释变量个数的非减函数。在式(3.31)中,TSS就与模型中的X变量的个数无关。但RSS即∑e2i却与模型中出现的解释变量个数相关。随着X变量个数的增加,∑e2i会减小,至少不会增大。因此,判定系数R2将会增大。所以,使用R2来判断具有相同被解释变量Y和不同个数解释变量X的回归模型的优劣时就很不适当。此时,R2不能用于比较两个回归方程的拟合优度。
为了消除解释变量个数对判定系数R2的影响,需使用调整的判定系数:

其中k为包括截距项在内的模型中的参数个数。在二元回归模型中k=3,在一元回归模型中k=2。所谓调整,就是的计算式中
都分别用它们的自由度(n-k)和(n-1)去除。
调整的判定系数R2和R2的关系为:

由上式可以看出:(1)k>1这意味着,随着X变量的个数增加,
增加得慢些;
(2)虽然R2非负,但可以是负的。在应用中,如果遇
出现负的情形,就
只要被解释变量的函数形式相同,不论解释变量个数多少,函数形式是否相同,都可以使用调整的判定系数比较不同回归模型的拟合优度。
3.回归分析中R2的应用
在回归分析中,我们的目的并不是为了得到一个高的R2,而是要得到真实总体回归系数的可靠估计并做出有关的统计推断。在实证分析中,经常碰到有着较高的R2,但某些回归系数在统计上不显著的回归模型,这样的模型是没有应用价值的。所以,我们应更加关心解释变量对被解释变量的理论关系和统计显著性。如果在其他条件相同的条件下,得到一个较高R2,当然很好;如果R2偏低,也不能说明模型不好。在经典线性回归模型中,并不要求R2一定是较高的。只有模型用于预测时,才会要求较高的拟合优度。
例3.2 大学平均成绩的决定因素。
根据某大学141名学生的样本,以大学平均成绩Y为被解释变量,高中平均成绩X1和大学能力测验分数X2为解释变量,用普通最小二乘法得到样本回归模型为

在式(3.34)中,R2=0.176,n=141。截距项1.29没有实际意义,因为没有人在高中时的成绩为0、测验成绩也为0时进入大学。R2=0.176意味着,高中平均成绩X1和大学能力测验分数X2一起解释这个学生样本中大学平均成绩Y的方差的17.6%。这个比例虽然不高,但不能判定模型不好。因为影响一个学生大学表现的因素还有很多,包括家庭背景、个性、高中教育的质量和对大学专业的喜恶等。
三、最小二乘估计量的期望值和方差
1.回归系数的期望值
在多元回归模型满足经典假定的条件下,普通最小二乘估计量是总体参数的无偏估计。即:

对这一结果有直接影响的假定为E(ui)=0(随机扰动项的期望值为0)和Cov(Xi, ui)=0(X非随机并与扰动项u不相关)。
在多元回归分析中,如果回归模型的函数形式设定有误或遗漏了与包含在模型中的变量相关的重要解释变量,都会导致经典假定E(ui)=0不成立,即E(ui)≠0。如此,则使得最小二乘估计量不是总体参数的无偏估计,即E(
)≠βj。虽然在多元回归分析中,模型的函数形式更多,包含的变量数也较多。相对于一元回归分析,出现函数形式设定偏误和遗漏重要解释变量的可能性较小。但是,在一项应用研究中,由于理论的含糊性或数据的局限性,总有一些重要解释变量不能包含到回归模型中。如此,则会破坏普通最小二乘估计的无偏性,我们会在§3.5中对此问题进行讨论。
关于Cov(Xi,ui)=0假定不能满足,从而破坏无偏性,我们将在后面的章节讨论它。
无偏性不是针对某一特定样本而言的,而是指将普通最小二乘法用于各种可能的随机样本时,这种方法得到的结果是无偏的。也就是说将普通最小二乘法用于不同的样本,将会得到许多不同的估计值,其中i表示第i个样本,j表示第j个参数。这些不同的估计值的均值等于总体参数βj。但对于一个具体的估计值就谈不上无偏性。因为一个估计值是从一个特定的样本得到的一个固定数,它也许等于总体参数,也许不等于总体参数,我们无法判定。虽然我们总是希望得到最接近总体真实性的估计值,但最小二乘法并不能保证这一点。
2.的方差和标准误
的期望值度量了
的集中趋势。而
的方差则度量了
围绕其期望值的集中程度,也就是度量了
的估计精度。
在满足经典假定的条件下,偏斜率系数最小二乘估计量的方差为

其

为Xj的总样本变异;为将Xj对所有其他解释变量(包括一个截距项)进行回归所得到的判定系数R2.
Var()具有非常重要的指导意义。方差越大,则意味着估计量越不精确。
的方差取决于如下三个因素:σ2,SSTj和R2j,其中j表示第j个解释变量。
(1)Var()与σ2成正比。σ2越大,
的方差Var(
)越大。回归模型的干扰项u是对回归结果的干扰,干扰项σ2越大,使得估计任何一个解释变量对Y的局部影响就越困难。由于σ2是总体的一个特征,所以它与样本容量无关。
(2)Var()与Xj的总样本变异SSTj成反比。总样本变异SSTj越大,
的方差Var(
)越小。因此,若其他条件不变,就估计βj而言,我们希望Xj的样本方差越大越好。这一点在一元回归模型中,我们已经看到了。只要扩大样本容量,就能增大SSTj,同时也就缩小了
的方差Var(
),也就是提高了估计精度。
(3)Var()与解释变量之间的线性关联程度R2j正相关。R2j越大,
的方差Var(
)越大。在一元回归模型中,只有一个解释变量,不存在这一问题。这里的R2j与Y无关,它只涉及原模型中的解释变量X2,X3,……,Xk,其中Xj作为被解释变量,其他解释变量作为解释变量。
在二元回归模型Y=β1+β2 X2+β3 X3+u中,的方差为

其中R22是X2对X3(含截距)进行一元回归所得到的R2。由于R2度量了拟合优度,所以当R22接近于1时,则表明在这个样本中,X3解释了X2的大部分变动,就是说X2与X3高度相关。随着R22的逐渐增加,Var()会越来越大。因此,X2与X3之间的线性关系越密切,斜率系数的普通最小二乘估计量的方差就越大。
对于一般情况,R2j是Xj总变异中由模型中包括的其他解释变量解释的部分。也就是Xj与其他解释变量之间的线性关联程度。关联程度越高,方差就越大;关联程度越小,方差就越小。最理想的情形是R2j=0,但这种情形是难以碰到的。在所有其他条件都不变的情况下,就估计βj来说,Xj与其他解释变量之间关联程度越低越好。
另外,在多元回归模型中,某些解释变量之间的高度相关不影响模型中其他参数的估计方差。例如,有一个三个解释变量的模型:

其中X3与X4高度相关,则Var()和Var(
4)都很大。但X3与X4之间的相关程度对Var(β2)没有直接影响。如果X2与X3,X4无关,则无论X3与X4如何相关,都会有R2j=0和Var(
)=σ2/SST2。如果我们所关心的是参数β2,我们可以不管X3与X4之间的相关程度。
将Var()开方,则得到
的标准误

3.σ2的估计量
由于干扰项ui不可观测,因此必须据样本结果估计σ2。σ2的无偏估计量为

式(3.40)中为σ2的估计量,n为样本容量,k为多元回归模型中的参数个数。可以证明,式(3.40)给出的σ2的估计量
是σ2的无偏估计量,即

正的平方根
被称为回归标准误。
σ2的无偏估计量的证明如下:


其M是n阶对称幂等矩阵,即M=M′,M2=M,则残差平方和

式(3.44)中的符号tr表示矩阵的迹,定义为矩阵主对角线上的和。因此可得

所以,σ2的无偏估计量为

四、最小二乘估计量的性质
在多元回归模型中,最小二乘估计量同样具有一元回归中的优良性质。高斯-马尔可夫定理对此给予了精辟的阐述。
高斯-马尔可夫定理 在多元线性回归模型的经典假定下,普通最小二乘估计量,
,……,
分别是β1,β2,……,βk的最佳线性无偏估计量。也就是说,普通最小二乘估计量
,
,……,
是所有线性无偏估计量中方差最小的。
在前面的讨论中,我们已经知道是βj的无偏估计量,即E(
)=βj。这表明了估计量
的集中趋势。
线性性
线性一词的含义是指是被解释变量Yi的线性函数:

其中每个Wij都是所有自变量样本值的一个函数。
无偏性

对式(3.48)取期望,可得

所以,是β的无偏估计量。这里利用了随机误差项的经典假定。
有效性
最佳一词的含义就是指最小方差。给定两个估计量,无疑是方差小的估计量优于方差大的估计量。是经典假定下βj的最小二乘估计量,对于任一线性无偏估计
都有
就是说,在一群线性无偏估计量中,普通最小二乘估计量的方差最小
的方差-协方差矩阵为

矩阵(3.49)中主对角线上的元素为,
,……,
的方差,非主对角线上的元素为它的协方差。
根据式(3.48)可得

因此


可以证明,最小二乘估计量的方差是所有线性无偏估计量中方差最小的。
高斯-马尔可夫定理的意义在于,当经典假定成立时,我们不需要再去寻找其他无偏估计量,没有一个会优于普通最小二乘估计量。也就是说,如果存在一个好的线性无偏估计量,这个估计量的方差最多与普通最小二乘估计量的方差一样小,不会小于普通最小二乘估计量的方差。
高斯-马尔可夫定理证明了在多元线性回归分析中,使用普通最小二乘法进行参数估计的合理性。但是,这一定理是依赖于经典假定条件的,如果经典假定中的条件不成立,这个定理也就不再成立。普通最小二乘估计量也就不再是最佳线性无偏估计量了。