- R语言医学多元统计分析
- 赵军 戴静毅编著
- 777字
- 2023-11-29 19:29:21
1.2 多元描述性统计量
对于单个变量,常用的描述性统计量有均值、方差、标准差等。对于多元数据,各个变量之间往往存在相互联系,它们之间的作用也会相互影响。因此,在分析多元数据时,我们还需要考虑各个变量之间的相互关联。多元分析中的描述性统计量主要有均值向量、协方差矩阵、相关系数矩阵等。与一元分析类似,多元分析中的统计量也是从样本计算得到的。
1.2.1 均值向量
样本的均值向量(means vector)处于样本数据的“中心”,由各个指标的均值组成。例如,使用函数colMeans()计算表1-2中4项检测指标的样本均值向量:
>bio<-cirr[,3:6] >colMeans(bio) FIBlnPTPTAlnCHE 2.4700002.67805679.7777788.133056
1.2.2 协方差矩阵
在一元分析中,用方差描述变量的离散程度;而在多元分析中,除了计算变量自身的方差,还需计算变量之间的协方差。两个变量和的样本协方差计算公式为
(1.1)
其中,为样本量。当时,就是的方差。
将各指标的方差、协方差用矩阵的形式表示就得到方差-协方差矩阵,简称协方差矩阵(covariance matrix)。对于包含个变量的随机向量,其样本协方差矩阵可以表示为
显然,协方差矩阵是一个对称矩阵。
对于表1-2中的数据,4项检测指标的样本协方差矩阵可以用函数var()计算得到:
>var(bio) FIBlnPTPTAlnCHE FIB0.6951200-0.1021371414.3217140.22538286 lnPT-0.10213710.03695325-4.075016-0.06602817 PTA14.3217143-4.07501587530.1777788.43441270 lnCHE0.2253829-0.066028178.4344130.27272468
1.2.3 相关系数矩阵
相关系数常用于描述两个连续型变量之间的关系,其符号(±)表明相关关系的方向(正相关或负相关),其绝对值的大小反映关系的强弱。两个变量和的样本相关系数计算公式为
(1.2)
其中,为样本量。相关系数的取值在−1与1之间。
将各个指标之间的相关系数用矩阵的形式表示就得到相关系数矩阵(correlation coefficient matrix)。样本相关系数矩阵通常用R表示:
与协方差矩阵类似,相关系数矩阵也是一个对称矩阵。因为变量自身的相关系数为1,所以R的对角线上的元素均为1。
样本相关系数矩阵可以用函数cor()计算得到,例如:
>cor(bio) FIBlnPTPTAlnCHE FIB1.0000000-0.63727590.74602670.5176411 lnPT-0.63727591.0000000-0.9206450-0.6577195 PTA0.7460267-0.92064501.00000000.7014260 lnCHE0.5176411-0.65771950.70142601.0000000
实际上,如果对每个变量作标准化变换(减去其均值,除以其标准差),那么标准化后的变量的协方差矩阵就等于原变量的相关系数矩阵。标准化可以借助函数scale()实现:
>var(scale(bio)) FIBlnPTPTAlnCHE FIB1.0000000-0.63727590.74602670.5176411 lnPT-0.63727591.0000000-0.9206450-0.6577195 PTA0.7460267-0.92064501.00000000.7014260 lnCHE0.5176411-0.65771950.70142601.0000000