2.3 线性代数基础

高等数学也是线性代数和概率论的基础,本节将讲解机器学习中线性代数的常用知识,下一节将讲解机器学习中常用的概率论知识。公式矩阵中出现的横线和竖线表示省略号。

2.3.1 基本概念和符号

线性代数提供了一种紧凑地表示和操作线性方程组的方法。例如,以下方程组:

4x1-5x2=-13   -2x1+3x2=9

这是两个方程和两个变量,正如从高中代数中所知的,可以找到x1x2的唯一解(除非方程以某种方式退化,例如第二个方程只是第一个方程的倍数,但在上面的情况下,实际上只有一个唯一解)。在矩阵表示法中,可以更紧凑地表达:

Ax=b

其中

使用以下符号:

,表示A为由实数组成具有m行和n列的矩阵。

,表示具有n个元素的向量。通常,向量x将表示列向量,即具有n行和1列的矩阵。如果想要明确地表示行向量,即具有1行和n列的矩阵,通常写为xT(这里xTx的转置)。

xi表示向量x的第i个元素,则:

使用符号aij(或AijAi,j等)来表示第i行和第j列中的A的元素:

aj或者A:,j表示矩阵A的第j列:

或者,表示矩阵A的第i行:

在许多情况下,将矩阵视为列向量或行向量的集合非常重要且方便。通常,在向量而不是标量上操作在数学上(和概念上)更清晰。只要明确定义了符号,用于矩阵的列或行的表示方式并没有通用约定。

2.3.2 矩阵乘法

两个矩阵相乘,其中,则:。其中,

注意 为了使矩阵乘积存在,A中的列数必须等于B中的行数。

有很多方法可以查看矩阵乘法,下面将从一些特殊情况开始介绍。

1.向量-向量乘法

给定两个向量xTy通常称为向量内积或者点积,结果是一个实数。

注意 xTy=yTx始终成立。

给定向量(它的维度是否相同都没关系),叫作向量外积,当(xyT)ij=xiyj的时候,它是一个矩阵。

举一个外积如何使用的例子:让1∈Rn表示一个n维向量,其元素都等于1,此外,考虑矩阵ARm×n,其列全部等于某个向量xRm。使用外积可以紧凑地表示矩阵A

2.矩阵-向量乘法

给定矩阵,向量,它们的积是一个向量y=AxRm。矩阵向量乘法有如下几种情况:

如果按行写A,那么可以表示Ax为:

也就是说,第iyA的第i行和x的内积,即:

同样,可以把A写成列的方式,即:

也就是说,yA的列的线性组合,其中线性组合的系数由x的元素给出。

到目前为止,一直是在右侧乘以列向量,但也可以在左侧乘以行向量。即yT=xTA表示。和以前一样,可以用两种可行的方式表达yT,这取决于是否根据行或列表达A

第一种情况,把A用列表示:

这表明yT的第i个元素等于xA的第i列的内积。

最后,根据行表示A,得到了向量-矩阵乘积的最终表示:

所以看到yTA的行的线性组合,其中线性组合的系数由x的元素给出。

3.矩阵-矩阵乘法

有了这些知识,现在来看4种不同的(形式不同,但结果是相同的)矩阵-矩阵乘法:也就是本节开头所定义的C=AB的乘法。

(1)将矩阵-矩阵乘法视为一组向量-向量乘积。从定义中可以得出:最明显的观点是C的(i,j)元素等于A的第i行和B的第j列的内积。公式如下:

这里的,这里的,所以它们可以计算内积。通常用行表示A,而用列表示B

(2)用列表示A,用行表示B,这时AB是求外积的和。公式如下:

也就是说,AB等于所有A的第i列和B的第i行的外积的和。因此,在这种情况下,,外积的维度是m×p,与C的维度一致。

(3)将矩阵-矩阵乘法视为一组矩阵向量积。如果把B用列表示,可以将C的列视为AB的列的矩阵向量积。公式如下:

这里C的第i列由矩阵向量乘积给出,右边的向量为ci=Abi

(4)用行表示AC的行作为AC行之间的矩阵向量积。公式如下:

这里第i行的C由左边的向量的矩阵向量乘积给出:

这些方法的直接优势在于它们允许用户在向量的级别/单位而不是标量上进行操作。为了完全理解线性代数而不会迷失在复杂的索引操作中,关键是要用尽可能多的概念进行操作。

除此之外,了解一些更高级别的矩阵乘法的基本属性是很有必要的:

(1)矩阵乘法结合律:(AB)C=A(BC)。

(2)矩阵乘法分配律:A(B+C)=AB+AC

矩阵乘法通常不是可交换的,也就是说,通常ABBA。例如,假设,如果mq不相等,则矩阵乘积BA甚至不存在。

如果不熟悉这些属性,可查阅相关资料花点时间验证它们。例如,为了检验矩阵乘法的相关性,假设。注意,所以。类似地,,所以。因此,所得矩阵的维度一致。

为了表明矩阵乘法是相关的,足以检查(AB)C的第(i,j)个元素是否等于A(BC)的第(i,j)个元素,可以使用矩阵乘法的定义直接验证这一点:

2.3.3 矩阵运算和性质

这里将介绍矩阵和向量的几种运算和属性。

1.单位矩阵和对角矩阵

对于单位矩阵,,它是一个方阵,对角线的元素是1,其余元素都是0:

对于所有,有:

AI=A=IA

注意 在某种意义上,单位矩阵的表示法是不明确的,因为它没有指定I的维数。通常,I的维数是从上下文推断出来的,以便使矩阵乘法成为可能。例如,在上面的等式中,AI=A中的In×n矩阵,而A=IA中的Im×m矩阵。

对角矩阵是一种这样的矩阵:对角线之外的元素全为0。对角阵通常表示为:D=diag(d1,d2,…,dn),其中:

显然,单位矩阵I=diag(1,1,…,1)。

2.转置

矩阵的转置是指翻转矩阵的行和列。给定一个矩阵,它的转置为n×m的矩阵,其中的元素为:

(AT)ij=Aji

事实上,在描述行向量时已经使用了转置,因为列向量的转置自然是行向量。转置的以下属性很容易验证:

(1)(AT)T=A

(2)(AB)T=BTAT

(3)(A+B)T=AT+BT

3.对称矩阵

如果A=AT,则矩阵是对称矩阵。如果A=-AT,则它是反对称的。很容易证明,对于任何矩阵,矩阵A+AT是对称的,矩阵A-AT是反对称的。由此得出,任何方矩阵可以表示为对称矩阵和反对称矩阵的和,所以:

上面的公式右边的第一个矩阵是对称矩阵,而第二个矩阵是反对称矩阵。事实证明,对称矩阵在实践中用得很多,它们有很多很好的属性。

通常将大小为n的所有对称矩阵的集合表示为,因此意味着A是对称的n×n矩阵。

4.矩阵的迹

方矩阵的迹表示为tr(A)(或者只是tr A),是矩阵中对角元素的总和,表示为:

迹具有以下属性:

(1)若矩阵,则:tr A=tr AT

(2)若矩阵,则:tr(A+B)=tr A+tr B

(3)若矩阵,则:tr(tA)=t tr A

(4)若矩阵ABAB为方阵,则:tr AB=tr BA

(5)若矩阵ABCABC为方阵,则:tr ABC=tr BCA=tr CAB。同理,更多矩阵的积也具有这个性质。

作为如何证明这些属性的示例,将考虑上面给出的第四个属性。假设(因此是方阵)。观察到也是一个方阵,因此对它们进行迹的运算是有意义的。要证明tr AB=tr BA,请注意:

这里,和tr BA使用迹运算符和矩阵乘法的定义,重点在第4个等式,使用标量乘法的可交换性来反转每个乘积中的项的顺序,以及标量加法的可交换性和相关性,以便重新排列求和的顺序。

5.范数

向量的范数||x||是非正式度量的向量的“长度”。例如,有常用的欧几里得或范数:

注意 

更正式地,范数是满足4个属性的函数

(1)对于所有f(x)≥0(非负)。

(2)当且仅当x=0时,f(x)=0(明确性)。

(3)对于所有f(tx)=|t|f(x)(正齐次性)。

(4)对于所有f(x+y)≤f(x)+f(y)(三角不等式)。

其他范数的例子是范数:

范数:

事实上,到目前为止所提出的3个范数都是范数族的例子,它们由实数p≥1参数化,并定义为:

也可以为矩阵定义范数,例如弗罗贝尼乌斯(Frobenius)范数:

另外,还有许多其他范数,这里不再给出。

6.特征值和特征向量

给定一个方阵,认为在以下条件下,A的特征值,是相应的特征向量:

Ax=λx,x≠0

直观地说,这个定义意味着将A乘以向量x会得到一个新的向量,该向量指向与x相同的方向,但按系数λ缩放。

值得注意的是,对于任何特征向量和标量A(cx)=cAx=cλx=λ(cx),cx也是一个特征向量。因此,当讨论与λ相关的特征向量时,通常假设特征向量被标准化为长度为1(这仍然会造成一些歧义,因为x和-x都是特征向量,但必须接受这一点)。

可以重写上面的等式来说明(λ,x)是A的特征值和特征向量的组合:

(λI-A)x=0,x≠0

但是(λI-A)x=0只有当(λI-A)有一个非空零空间,同时(λI-A)是奇异的,x才具有非零解,即:

|(λI-A)|=0

现在,可以使用行列式先前的定义将表达式|(λI-A)|扩展为λ中的(非常大的)多项式,其中,λ的度为n。它通常被称为矩阵A的特征多项式。

然后找到这个特征多项式的n个(可能是复数)根,并用λ1,…,λn表示。这些都是矩阵A的特征值,但注意它们可能不明显。

为了找到特征值λi对应的特征向量,只需解线性方程(λI-A)x=0,因为(λI-A)是奇异的,所以保证有一个非零解(但也可能有多个或无穷多个解)。

注意 这不是实际用于数值计算特征值和特征向量的方法(记住行列式的完全展开式有n!项),这是一个数学上的争议。

以下是特征值和特征向量的属性(所有假设在具有特征值λ1,…,λn的前提下):

A的迹等于其特征值之和:

A的行列式等于其特征值的乘积:

A的秩等于A的非零特征值的个数。

假设A非奇异,其特征值为λ,特征向量为x。那么1/λ是具有相关特征向量xA-1的特征值,即A-1x=(1/λ)x(要证明这一点,取特征向量方程Ax=λx,两边都左乘A-1)。

对角阵的特征值d=diag(d1,…,dn),实际上就是对角元素d1,…,dn

7.对称矩阵的特征值和特征向量

通常情况下,一般的方阵的特征值和特征向量的结构可以很细微地表示出来。值得庆幸的是,在机器学习的大多数场景下,处理对称实矩阵就足够了,其处理的对称实矩阵的特征值和特征向量具有显著的特性。

此处,假设A是实对称矩阵,具有以下属性:

(1)A的所有特征值都是实数,用λ1,…,λn表示。

(2)存在一组特征向量u1,…,un,对于所有iui是具有特征值λib的特征向量。u1,…,un是单位向量并且彼此正交。

U是包含ui作为列的正交矩阵:

设∧=diag(λ1,…,λn)是包含λ1,…,λn作为对角线上的元素的对角矩阵。可以验证:

考虑到正交矩阵U满足TUU=I,利用上面的方程,得到:

A=AUUT=UUT

这种A的新的表示形式为UUT,通常称为矩阵A的对角化。术语对角化是这样来的:通过这种表示,通常可以有效地将对称矩阵A视为对角矩阵,这更容易理解。

2.3.4 矩阵微积分

机器学习中将广泛用到矩阵微积分的知识,本节将介绍矩阵微积分的一些基本定义。

1.梯度

假设是将维度为m×n的矩阵作为输入并返回实数值的函数,然后f的梯度(相对于)是偏导数矩阵,定义如下:

即,对于m×n矩阵:

请注意,▽Af(A)的维度始终与A的维度相同。特殊情况下,如果A只是向量,则

重要的是,只有当函数是实值时,即函数返回标量值,才定义函数的梯度。例如,相对于x,不能取Ax的梯度,因为这个量是向量值。它直接从偏导数的等价性质得出:

x(f(x)+g(x))=▽xf(x)+▽xg(x)。

对于,▽x(tf(x))=txf(x)。

原则上,梯度是偏导数对多变量函数的自然延伸。然而,在实践中,由于符号的原因,使用梯度有时是很困难的。例如,假设是一个固定系数矩阵,是一个固定系数向量。设f(z)=zTz定义的函数,因此▽zf(z)=2z。但现在考虑表达式:

f(Ax)

该表达式的解释至少有两种可能:在第一种解释中,回想起▽zf(z)=2z。在这里,将▽f(Ax)解释为评估点Ax处的梯度,因此:

在第二种解释中,将数量f(Ax)视为输入变量x的函数。更正式地说,设g(x)=f(Ax)。在这个解释中:

在这里,可以看到这两种解释确实不同。一种解释产生m维向量作为结果,而另一种解释产生n维向量作为结果。

这里,关键是要明确需要区分的变量。在第一种解释下,将函数f与其参数z进行微分,然后替换参数Ax0。在第二种解释下,将复合函数g(x)=f(Ax)直接与x进行微分。

将第一种解释表示为▽zf(Ax),第二种解释表示为▽xf(Ax)。

2.黑塞矩阵

假设是一个函数,它接收中的向量并返回实数。那么关于x的黑塞(Hessian Matrix)矩阵(又译作海森矩阵),写作:,或者简单地说,Hn×n矩阵的偏导数:

换句话说,,其:

注意:黑塞矩阵通常是对称矩阵:

与梯度相似,只有当f(x)为实值时才定义黑塞矩阵。

很自然地认为梯度与向量函数的一阶导数相似,而黑塞矩阵与向量函数的二阶导数相似(使用的符号也暗示了这种关系)。这种直觉通常是正确的,但需要记住以下几个注意事项。

首先,对于一个变量的实值函数,它的基本定义:二阶导数是一阶导数的导数,即:

然而,对于向量的函数,函数的梯度是一个向量,不能取向量的梯度,即:

上述表达式没有实际意义。因此,黑塞矩阵不是梯度的梯度。然而,下面这种情况却几乎是正确的:如果看一下梯度(▽xf(x))i=∂f(x)/∂xi的第i个元素,并取关于x的梯度得到:

这是黑塞矩阵第i行(列),所以:

可以说,由于,因此这实际上是取▽xf(x)的每个元素的梯度,而不是整个向量的梯度。

注意,虽然可以对矩阵取梯度,但本书只考虑对向量取黑塞矩阵。这会方便很多(事实上,所做的任何计算都不要求找到关于矩阵的黑森方程),因为关于矩阵的黑塞方程必须对矩阵所有元素求偏导数,将其表示为矩阵相当麻烦。

3.二次函数和线性函数的梯度和黑塞矩阵

现在尝试确定几个简单函数的梯度和黑塞矩阵。

对于,设f(x)=bTx的某些已知向量,则:

所以:

由此可以很容易地看出▽xbTx=b。这应该与单变量微积分中的类似情况进行比较,其中∂/(∂x)ax=a

现在考虑的二次函数f(x)=xTAx。记住这一点:

为了取偏导数,将分别考虑包括xk因子的项:

最后一个等式,是因为A是对称的(可以安全地假设,因为它以二次形式出现)。注意,▽xf(x)的第k个元素是Ax的第k行的内积。因此,▽xxTAx=2Ax。同样,应该提醒单变量微积分中的类似事实,即∂/(∂x)ax2=2ax

最后,让我们来看二次函数f(x)=xTAx的黑塞矩阵(显然,线性函数bTx的黑塞矩阵为零)。在这种情况下:

因此,应该很清楚,这应该是完全可以理解的(同样类似于∂2/(∂x2)ax2=2a的单变量事实)。

简要概括起来:

xbTx=b

xxTAx=2Ax(如果A是对称矩阵)。

(如果A是对称矩阵)。

4.最小二乘法

下面由前面得到的方程来推导最小二乘方程。假设得到矩阵(为了简单起见,假设A是满秩的)和向量,从而使

在这种情况下,将无法找到向量,由于Ax=b,因此想要找到一个向量x,使得Ax尽可能接近b,用欧几里得范数的平方来衡量。

使用公式可以得到:

根据x的梯度及梯度的性质:

将最后一个表达式设置为零,然后解出x,得到正规方程:

5.行列式的梯度

现在考虑一种情况,找到一个函数相对于矩阵的梯度,也就是说,对于,要找到▽A|A|。对行列式:

其中,矩阵A删除i行和j列的矩阵。

所以:

由此可知,该式可以直接从伴随矩阵的性质得出:

A|A|=(adj(A))T=|A|A-T

现在来考虑函数f(A)=log|A|。注意,必须将f的域限制为正定矩阵,因为这确保了|A|>0,因此|A|的对数是实数。在这种情况下,可以使用链式法则(即单变量演算中的普通链式法则)来验证:

由此可以明显看出:

可以在最后一个表达式中删除转置,因为A是对称的。注意与单值情况的相似性,其中∂/(∂x)log x=1/x

6.特征值优化

最后,使用矩阵特征值/特征向量分析方式可以求解优化问题。考虑以下等式约束优化问题:

对于对称矩阵,求解等式约束优化问题的标准方法是采用拉格朗日形式,一种包含等式约束的目标函数,在这种情况下,拉格朗日函数可由以下公式给出:

其中,λ被称为与等式约束关联的拉格朗日乘子。可以确定,要使x*成为问题的最佳点,拉格朗日的梯度必须在x*处为零(这不是唯一的条件,但它是必需的)。也就是说:

请注意,这只是线性方程Ax=λx。这表明假设xTx=1,可能最大化(或最小化)xTAx的唯一点是A的特征向量。