1.2 多元描述性统计量

对于单个变量,常用的描述性统计量有均值、方差、标准差等。对于多元数据,各个变量之间往往存在相互联系,它们之间的作用也会相互影响。因此,在分析多元数据时,我们还需要考虑各个变量之间的相互关联。多元分析中的描述性统计量主要有均值向量、协方差矩阵、相关系数矩阵等。与一元分析类似,多元分析中的统计量也是从样本计算得到的。

1.2.1 均值向量

样本的均值向量(means vector)处于样本数据的“中心”,由各个指标的均值组成。例如,使用函数colMeans()计算表1-2中4项检测指标的样本均值向量:

>bio<-cirr[,3:6]
>colMeans(bio)
FIBlnPTPTAlnCHE
2.4700002.67805679.7777788.133056

1.2.2 协方差矩阵

在一元分析中,用方差描述变量的离散程度;而在多元分析中,除了计算变量自身的方差,还需计算变量之间的协方差。两个变量的样本协方差计算公式为

(1.1)

其中,为样本量。当时,就是的方差。

将各指标的方差、协方差用矩阵的形式表示就得到方差-协方差矩阵,简称协方差矩阵(covariance matrix)。对于包含个变量的随机向量,其样本协方差矩阵可以表示为

显然,协方差矩阵是一个对称矩阵。

对于表1-2中的数据,4项检测指标的样本协方差矩阵可以用函数var()计算得到:

>var(bio)
FIBlnPTPTAlnCHE
FIB0.6951200-0.1021371414.3217140.22538286
lnPT-0.10213710.03695325-4.075016-0.06602817
PTA14.3217143-4.07501587530.1777788.43441270
lnCHE0.2253829-0.066028178.4344130.27272468

1.2.3 相关系数矩阵

相关系数常用于描述两个连续型变量之间的关系,其符号(±)表明相关关系的方向(正相关或负相关),其绝对值的大小反映关系的强弱。两个变量的样本相关系数计算公式为

(1.2)

其中,为样本量。相关系数的取值在−1与1之间。

将各个指标之间的相关系数用矩阵的形式表示就得到相关系数矩阵(correlation coefficient matrix)。样本相关系数矩阵通常用R表示:

与协方差矩阵类似,相关系数矩阵也是一个对称矩阵。因为变量自身的相关系数为1,所以R的对角线上的元素均为1。

样本相关系数矩阵可以用函数cor()计算得到,例如:

>cor(bio)
FIBlnPTPTAlnCHE
FIB1.0000000-0.63727590.74602670.5176411
lnPT-0.63727591.0000000-0.9206450-0.6577195
PTA0.7460267-0.92064501.00000000.7014260
lnCHE0.5176411-0.65771950.70142601.0000000

实际上,如果对每个变量作标准化变换(减去其均值,除以其标准差),那么标准化后的变量的协方差矩阵就等于原变量的相关系数矩阵。标准化可以借助函数scale()实现:

>var(scale(bio))
FIBlnPTPTAlnCHE
FIB1.0000000-0.63727590.74602670.5176411
lnPT-0.63727591.0000000-0.9206450-0.6577195
PTA0.7460267-0.92064501.00000000.7014260
lnCHE0.5176411-0.65771950.70142601.0000000