第二节 数值变量的统计分析

一、数值变量的统计描述
(一)集中趋势
集中趋势(central tendency)在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。集中趋势测度就是寻找数据水平的代表值或中心值,包括:算术平均数(arithmetic mean)、几何均数(geometric mean)及中位数(median)。
1.算术平均数
例3-1:利用直接法计算某县金坑乡居民的试验前收缩压平均值,数据见表3-1中金坑乡居民的试验前收缩压测量值。
(式3-1)
算数平均数是使用最多的平均数,但只能用于呈正态分布或近似正态分布的数值变量。主要缺陷是算术平均数容易受一组数据中极端数值的影响,此时算数均数的代表性就比较差。
2.几何平均数
G表示,适用于:①对数正态分布,即数据经过对数变换后呈正态分布或近似正态分布的数值变量;②等比级数的数值变量,即观察值之间呈倍数或近似倍数变化。如医学实践中的抗体滴度、平均效价等。
例3-2:6例慢性肝炎患者的HBsAg滴度资料1∶16,1∶16,1∶32,1∶32,1∶64,1∶128。计算其几何均数。
(式3-2)
(式3-3)
通常按公式(3-3)计算,几何均数为:
几何均数有明确的限制,比如:数据中不得出现0,否则无法计算,数据中不得同时存在正值和负值。
3.中位数用 M表示
中位数是把观察值由小到大排列,位次居中的数值。中位数一般用于描述:①非正态分布的数值变量(对数正态分布除外);②频数分布的一端或两端无确切数据的资料;③总体分布不清楚的资料。
(1)直接法
例3-3:某药厂观察7只小鼠口服某药后在缺氧条件下生存时间(分钟)如下:11,32,33,54,65,87,88。试求其中位数。
n为奇数时,
(式3-4)
n为偶数时,
(式3-5)
式中下标 为有序数列的位次, 为相应位次的观察值。
本例数据已经由小到大排列。 n=7为奇数,代入公式,
MX ( n +1) / 2X 4=54(分钟)
(2)频数表法:
对频数表资料,可通过百分位数法近似计算中位数。
百分位数(percentile)是将一组数据按由小到大的顺序排成一个数列,分成100等份,称为100个百分位。位于第 X百分位上的那个数值称为第 X百分位数( P X)。
百分位数是一个数值,它将原始观察值分成两部分,理论上有 X%的观察值小于 P X,有1- X%的观察值大于 P X。百分位数 P 50就是中位数。
对于频数表资料,百分位数 P X的计算公式为:
(式3-6)
其中 L为百分位数所在组段的下限, i为该组段的组距, f L为百分位数所在组前一组段的累积频数, f X为该组段的频数,n为总频数。
例3-4:50例某病患者的潜伏期(小时)如表3-2所示,试计算潜伏期的中位数。
表3-2 50例某病患者的潜伏期(小时)资料
续表
首先,计算各组段的频率、累计频数和累计频率,见上表所示,可判断出 P 50位于“48~”这个组段。将相应数据代入计算公式(3-6),得出:
即该组潜伏期资料的中位数为54.55(小时)。
用中位数表示数据的集中趋势最大的优点在于不易受数据中极端值的影响,其缺点在于对整体数据的代表性较差。
(二)离散趋势
离散趋势(dispersion tendency)是衡量变异程度(或离散程度)的指标,衡量变异程度大小的常用指标有极差、四分位数间距、标准差和变异系数。
例3-5:试观察三组数据的离散情况。
A组:16 18 20 22 24
B组:14 17 20 23 26
C组:16 19 20 21 24
可以看出,三组数据的均数都是20,但是数据的离散程度(变异度)不同。A组和B组的数据点散布均匀,但B组的数据分布范围明显大于A组;A、C两组的数据分布范围相同,但数据点的离散程度不同;B、C两组则数据分布范围与离散程度均不同。
1.极差
极差(range)亦称全距,用 R表示。是一组观察值中最大值与最小值之差,用于反映个体变异范围的大小。极差的计算简便,但是它仅仅利用了样本中最大值与最小值的信息,不能反映其他观察值的变异情况。另外,样本量 n越大,越有机会观察到偏大或偏小的数据, R可能会越大,因此,样本量相差悬殊时不宜比较极差。即使样本量相同,极差也往往不够稳定。这些在应用中应予以注意。
2.四分位数间距
四分位数间距(quartile interval)是上四分位数 Q UQ 3P 75)与下四分位数 Q LQ 1P 25)之差,其间包括了全部观察值的一半,用 Q表示。定义为 Q= P 75- P 25
四分位数间距比极差稳定,常和中位数配合使用。但仍未考虑到每个观察值的变异度。它适用于偏态分布资料,特别是分布末端无确定数据不能计算全距和标准差的资料。
3.标准差
例3-6:续例3-5,计算三组资料的标准差(standard deviation)。
(式3-7)
A组:∑ X=16 18 20 22 24 100, n=5,
X 2=16 2+18 2+20 2+22 2+24 2=2040
代入公式(3-7),得
同理得:B组: S=4.74,C组: S=2.92。
由于C组的标准差最小,故认为其均数的代表性较其他组要好。标准差适用于对称分布,常和算数平均数配合使用,特别是正态或近似正态分布的数值变量。
4.变异系数
例3-7:2010年某市调查该地刚满周岁的男童身高均数为78.2cm,标准差为3.4cm;刚满周岁的男童体重均数为9.13kg,标准差为1.02kg。试计算周岁男童身高与体重的变异系数(coefficient of variance),比较其身高与体重的变异程度的大小。
(式3-8)
代入公式(3-8),身高的变异系数和体重的变异系数分别为:
身高
体重
结果显示,某市周岁男童体重的相对变异度要大于身高。
当进行两组或多组数值变量变异程度的比较时,如果单位不同和(或)均数相差较大时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。变异系数没有单位,消除了量纲的影响,变异系数越大,意味着相对于均数而言,变异程度越大。
二、数值变量的统计推断
(一)正态分布与医学参考值范围
正态分布(normal distribution)又称高斯分布(Gaussian distribution),若随机变量 X服从一个数学期望为 μ、方差为 σ 2的高斯分布,记为 X~( μσ 2)。正态分布的期望值 μ决定了其位置,方差 σ 2决定了分布的形状。因其曲线呈钟形,因此,人们又经常称之为钟形曲线。正态分布是概率论中最重要的一种分布,也是自然界常见的一种分布,见图3-3。
习惯上,用 Nμσ 2)表示均数为 μ,标准差为 σ的正态分布。很多医学现象服从正态分布或近似正态分布。例如,同性别、同年龄儿童的身高以及同性别健康成人的红细胞数、血红蛋白含量、脉搏数等。一般来说,若影响某一数值变量值的随机因素很多,而每个因素所起的作用均不太大,则这个变量服从正态分布,如实验中的随机误差,通常表现为正态分布。
为了应用方便,经常将一般的正态变量 X通过 u变换 u=( X- μ)/ σ转化成标准正态变量 u,以使原来各种形态的正态分布都转换为 μ=0, σ=1的标准正态分布(standard normal distribution)。 u称为标准正态离差。
图3-3 均数为 μ,标准差为 σ的正态分布
这种变换称为标准化变换或 u变换,由于 X是随机变量,因此 u也是随机变量,所得到的随机变量 u也服从标准正态分布,常常称为 u分布, u值所对应的面积见附表1,标准正态分布曲线下的面积。
参考值范围(reference range)是指绝大多数特定的“正常”人群(排除了对所研究指标有影响的疾病和有关因素的特定人群)的解剖、生理、生化及组织代谢产物含量等指标的取值范围。学者们习惯用该人群95%正常个体的某项医学指标的取值范围作为该指标的医学参考值范围。
确定医学参考值范围主要有两方面的意义:其一,用于划界、分类,如临床上生理、生化指标常常是临床医生判断某指标正常与异常的参考依据;其二,动态分析,如某个地区不同时期某些重金属元素的正常值可反映环境污染的动态变化或环保效果。
确定医学参考值范围的方法有两种:
正态分布法:若 X服从正态分布,医学参考值范围还可以依照正分布的规律计算。因为正态分布变量 X在区间 μ±1.96 σ上取值的概率为0.95,所以正态分布资料双侧95%医学参考值范围一般按下式作近似估计:
(式3-9)
单侧95%医学参考值范围:
过高异常:
(式3-10)
过低异常:
(式3-11)
例3-8:以表3-1中80位居民电子健康档案中试验前收缩压为例,其分布近似于正态分布 =128.91(mmHg), S=10.12(mmHg),试估计该县居民试验前收缩压的95%参考值范围。
因为收缩压过高、过低均为异常,所以95%医学参考值范围应当是双侧的:
上限为 +1.96 S=128.91+1.96×10.12=148.75(mmHg)
下限为 -1.96 S=128.91-1.96×10.12=109.07(mmHg)
该县居民收缩压的95%参考值范围是(109.07~148.75mmHg)。
必须注意,95%医学参考值范围仅仅告诉我们某特定人群中,95%的个体该指标值的范围,并不能说明凡在此范围内都“正常”;也不能说明凡不在此范围内都不“正常”。因此,医学参考值范围在临床上只能作为参考。
正态分布法只限于正态分布资料、近似正态分布或以一定的方法可以转化为正态分布的资料。例如,某变量值经过对数变换后可转换成近似正态分布,这时可先求其对数值的参考值范围,再求反对数即为原变量的参考值范围。
确定医学参考值范围必须抽取足够例数的样本,并判定是否应分“层”确定参考值范围。如果测定值在性别间或年龄组间差别较大,则应分“层”确定参考值范围,每层样本含量至少100例。
百分位数法:双侧95%医学参考值范围是( P 2.5P 97.5),单侧范围是 P 95以下(人体有害物质如血铅、发汞),或 P 5以上(如肺活量)。该法适用于任何分布类型的资料,但因只考虑到了几个位点的数据,并无充分考虑每个变量值的离散趋势,因此,代表性不如正态分布法。
(二)均数抽样误差与总体均数的可信区间
1.均数抽样误差
如果我们从总体中进行随机抽样100次,样本含量为 n,可以得到100个样本均数,每个样本均数与总体均数以及各样本均数之间都有差异,这种差异称为均数的抽样误差,其大小用标准误(standard error)描述。
(1)标准误的意义:
标准误也是一个离散度指标,用它来描述样本均数抽样误差的大小,即同一总体中相同样本量的样本均数间的离散度。标准误用“ ”来表示,即样本均数的标准差,标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。
(2)标准误的计算:
在实际应用中,总体标准差 σ通常未知,需要用样本标准差 S来估计。此时样本均数标准误的估计值为:
(式3-12)
例3-9:计算表3-1中某县金坑乡居民的试验前收缩压标准误。已知金坑乡居民的试验前收缩压平均数 =134.45(mmHg),标准差为9.023(mmHg)。
代入公式(3-12),得标准误:
标准误与标准差的联系:
(1) S大小成正比,即总体中各变量的变异度增大,抽样误差也增大。
(2)与 的大小成反比,当 n越接近总体时,即所包括的个数愈多时,样本均数愈接近总体均数,抽样误差愈小。
2. t分布
根据数学上的中心极限定理,在总体中以固定的样本含量 n抽取若干个样本时,若总体服从正态分布,则样本均数的分布也服从正态分布;若总体不服从正态分布,但样本数量足够大,则样本均数的分布仍近似服从正态分布,即 。所以,对样本均数的分布进行 u变换 ,也可以变换为标准正态分布 N(0,1)。
在实际工作中 往往是未知的,常用样本估计值 来代替,为了与 u变换区别,称为 t变换 ,统计量  t值的分布称为 t分布, t分布可以看成是 u分布的一种扩展。
t分布的特征:
(1)以0为中心,左右对称,呈单峰分布;
(2) t分布是一簇曲线,其形态变化与自由度 ν大小有关。自由度 ν越小, t分布曲线高峰越低平,尾部翘得越高;自由度 ν越大, t分布曲线高峰越高耸,尾部翘得越低,越接近标准正态分布曲线,自由度 ν趋近于无穷大时, t分布曲线就是标准正态分布曲线(图3-4)。
图3-4 不同自由度下的t分布曲线
对应于每一个自由度 ν,就有一条 t分布曲线,每条曲线都有其曲线下统计量 t的分布规律,计算较为复杂。因此,统计学家根据自由度 ν的大小与 t分布曲线下的面积的关系,编制了 t分布界值表(附表2),以便于应用。表中的横标目为自由度 ν,纵标目为概率 P,表中数字表示自由度 νP固定时, t的界值。因 t分布是以0为中心的对称分布,故 t界值表中只列出了正值,如果算出的 t值为负值,可以用绝对值查表。 t分布曲线下中间面积为95%或99%的界值不是一个常量,而是随着自由度大小而变化的,分别用 t 0.05/2, νt 0.01/2, ν表示,对应的 t分布曲线双侧尾部面积分别为5%(0.05)和1%(0.01)。
3.总体均数的可信区间
(1)可信区间的涵义:
按预先给定的概率所确定的包含总体参数的一个范围,该范围通常称为参数的可信区间(confidence interval,CI),预先给定的概率(1- α)称为可信度(confidence level),常取95%。意思是从总体中做随机抽样,每个样本可以算得一个可信区间,如95%可信区间意味着做100次抽样,算得100个可信区间,平均有95个估计正确,平均5个估计错误。
(2)可信区间的两个要素:
一是准确度,反映在可信度的大小,即区间包含总体均数的概率的大小,愈接近1愈好;二是精密度,反映在区间的宽度,宽度愈小愈好。在样本含量确定的情况下,两者是矛盾的,若只提高可信度,会把区间变得很宽,故不宜认为99%可信区间比95%可信区间好,需要兼顾可信度和精密度,一般来说,95%可信区间更为常用,在可信度确定的情况下,增加样本含量,可减小区间宽度,提高精密度。
(3)可信区间的算法
(式3-13)
式(3-13)中,自由度 ν= n-1 分别为样本均数和标准误, t α /2 可以按自由度为 ν与检验水准为 α,查 t界值表得到。
例3-10:试根据某县金坑乡居民样本的试验前收缩压估计总体均值的95%可信区间。已知金坑乡居民的试验前收缩压平均值 =134.45mmHg,标准误 =2.018mmHg,
t界值表得 t 0.05/2,19=2.093,金坑乡居民的试验前收缩压总体均值的95%可信区间为:
(134.45-2.093×2.018,134.45+2.093×2.018),即(130.23,138.67)mmHg
(三)t检验
t检验,亦称Student t检验(Student’s t test),主要用于样本含量较小(例如, n<30),总体标准差 σ未知的正态分布资料。
t检验分为单样本 t检验、两独立样本 t检验和配对样本 t检验。
1.样本均数与总体均数的比较
例3-11:比较某县金坑乡居民的试验前收缩压(134.45mmHg)与该县居民的试验前收缩压总体平均值( μ 0=128.91mmHg)有无差别。资料见表3-1。
(1)建立检验假设,确定检验水准
H 0μ= μ 0=128.91(mmHg), μ为该县金坑乡居民的试验前收缩压总体均数, μ 0为该县居民的试验前收缩压的总体均数。意为“就总体而言,该县金坑乡居民的试验前收缩压总体均数与该县居民试验前收缩压的总体均数无差别”。
H 1μ≠128.91(mmHg)
α=0.05
(2)计算统计量
(式3-14)
其中 为样本均数; μ为总体均数; S为样本标准差; n为样本含量; ν为自由度。
本例 n=20 =134.45mmHg, S=9.023mmHg, μ 0=128.91。
按公式(3-14)得
相应的自由度为 ν=19。
(3)确定 P值,做出推断:
本例以 ν=19、 t=2.75,查 t界值表,因 t 0.02/2,19<2.75< t 0.01/2,19,故0.01< P<0.02。按 α=0.05水准,拒绝 H 0,接受 H 1,差异有统计学意义。可认为试验前金坑乡居民的收缩压高于该县居民的收缩压。
单样本 t检验是检验样本均数来自的总体均数与已知的总体均数(一般为理论值、标准值或大量观察得到的稳定值)有无差别,要求样本来自的总体分布是正态分布。
在统计学中,如果 H 0实际是正确的,但由于抽样的偶然性,使得由样本资料计算获得的检验统计量得出拒绝 H 0的结论,统计学上将这种拒绝了正确的 H 0 (弃真)的错误称为Ⅰ型错误(typeⅠerror),又称为假阳性错误。如果真实的情况是 H 0错误( H 1正确),但由于抽样的偶然性,使得由样本数据计算获得的检验统计量得出了不拒绝 H 0(存伪)的结论,统计学上将这种不拒绝实际上不成立的 H 0所犯的错误称为Ⅱ型错误(type Ⅱ error),又称为假阴性错误。统计推断的两类错误及其概率见表3-3和图3-5。
表3-3 统计推断的两类错误及其概率
图3-5 Ⅰ型错误和Ⅱ型错误
2.两独立样本均数的比较
例3-12:利用随机抽取的某县两个较富裕乡镇,铅厂镇和扬眉镇;两个较贫困乡镇,金坑乡和上堡乡。一共四个乡镇的试验前收缩压情况。试比较某县较富裕地区和较贫困地区居民试验前收缩压是否有差异?
(1)建立检验假设,确定检验水准
H 0μ 1= μ 2,即该县较富裕地区和较贫困地区居民试验前收缩压值的总体均数相等。
H 1μ 1μ 2
α=0.05
(2)计算统计量
(式3-15)
其中, 为两样本均数; S 1S 2为两样本标准差; n 1n 2为两样本含量。
本例:较贫困地区样本均数 =134.48mmHg,标准差S 1=7.40mmHg;较富裕地区样本均数 =123.35mmHg,标准差S 2=9.73mmHg, n 1= n 2=40。
按公式(3-15),得
(3)确定 P值,做出推断:
t界值表得: t 0.001/2,80=3.416<5.756, P<0.001。按 α=0.05水准,拒绝 H 0,接受 H 1,差异有统计学意义,可以认为该县较富裕地区和较贫困地区居民试验前收缩压有差异。
两独立样本 t检验是检验两个样本均数来自的两总体均数有无差别,要求两样本均来自正态分布总体且方差齐。
3.配对计量资料的比较
配对设计(paired design)是一种比较特殊的设计方式,能够较好地控制非实验因素对结果的影响。配对比较的 t检验适用于下列情况。自身配对:①同一受试对象处理前后的比较;②同一受试对象接受两种不同处理;③异体配对:将两个受试者配成对子,施予两种不同处理。
例3-13:比较某县金坑乡居民试验前后收缩压是否有差异。假定试验前后居民试验前后收缩压的差值服从正态分布,进行 t检验如下:
(1)建立检验假设,确定检验水准。
H 0μ d=0,即试验前后收缩压的差值的总体均数为零。
H 1μ d≠0
α=0.05
(2)计算统计量
(式3-16)
差值的均数, S d为样本差值的标准差, n是对子数。
本例, n=20,∑ d=227,∑ d 2=5117 =∑ d/ n=11.35。
按公式(3-16)得
(3)确定P值,做出推断:
自由度 ν= n-1=20-1=19,查 t界值表,可知 t 0.001/2,19=3.883<4.39, P<0.001。按 α=0.05水准,拒绝 H 0,差异有统计学意义。可以认为试验前后金坑乡居民收缩压有所降低。
配对样本 t检验是检验对子差值的总体均数与0有无差别,要求差值服从正态分布。
4.假设检验注意事项
(1)要有严密的科研设计:这是假设检验的前提。对比组之间应均衡,具有可比性,要充分考虑影响结果的各种因素,极大限度地减少或避免误差,排除混杂因素的干扰。
(2)选用的检验方法必须符合其适用条件: t检验的前提是资料服从正态分布,两组样本比较是否要求方差齐性。通过正态性检验推断数据的正态性,方差齐性的推断可进行方差齐性检验。如果不满足这些条件,只能使用非参数检验如秩和检验代替 t检验进行两组间的比较。
(3)单侧检验和双侧检验:选用双侧检验还是单侧检验需要根据分析目的及专业知识进行确定。例如,在临床试验中,比较甲、乙两种治疗方法的疗效有无差异,目的只要求区分两方法有无不同,无须区分何者为优,则应选用双侧检验。如果有充分的理由认为甲法疗效不比乙法差,此时应选用单侧检验。在没有专业知识说明的情况下,一般应采用双侧检验。选用双侧检验还是单侧检验,应该在假设检验的第一步建立检验假设时确定,不应该在算得检验统计量后主观确定,否则可能得到相反的结论。对同一份资料做 t检验,单侧检验比双侧检验较易获得有统计学意义的结论。如果本应采用双侧检验而误用了单侧检验,易犯Ⅰ型错误,即假阳性错误。
(4)假设检验的结论:不能绝对化假设检验的结论是根据 P值大小和检验水准 α作出的,有犯错误的风险。拒绝 H 0,可能犯Ⅰ型错误;不拒绝 H 0,可能犯Ⅱ型错误。
(5)正确理解 P值的意义: P值是指在 H 0成立的前提下,出现现有样本统计量以及更极端情况的概率。 P值越小说明当前样本的证据越倾向于拒绝 H 0,当 P值小于等于事先规定的检验水准 α时,就拒绝 H 0
P值的大小不仅与总体参数间的差别有关,而且与抽样误差等有关。不能认为 P值越小,总体参数间的差别越大。 P值越小,说明实际观测到的差异与 H 0之间不一致的程度就越大,越有理由拒绝 H 0。假设检验只做出拒绝或不拒绝 H 0的定性结论,但不能给出总体参数间差别大小的结论。
(6)正确理解统计学意义与专业意义的关系:假设检验的目的是为专业服务的,假设检验中做出统计学推断,紧随其后的是做专业推断。当统计学意义与专业意义一致时,则最终结论与两者均一致。当统计学意义与专业意义相悖时,需结合具体情况加以考虑。
(7)可信区间与假设检验的区别:两者都属于统计推断的方法,可信区间在回答差别有无统计学意义的同时,还可以提示差别是否具有实际意义。
(8)涉及多组间比较时,不能用 t检验理论上讲多个样本均来自同一正态总体,应当无统计学差异。如果每两样本均数比较均进行 t检验,规定每次 t检验允许犯Ⅰ型错误的概率为 α=0.05,多次比较犯Ⅰ型错误的概率就大于0.05。 g组样本进行两两比较,需进行 gg-1)/2次比较,故每次比较均正确,不拒绝 H 0的概率为(1- αg g -1)/2,犯Ⅰ类错误的概率为1-(1- αg g -1)/2。例如, g=3时,则进行3次比较,若 α=0.05,每次比较均正确不拒绝 H 0的概率为0.857,即实际上拒绝 H 0接受 H 1的概率为 α=1-0.857=0.143,而不是0.05,所以增大了犯Ⅰ类错误的概率。
(四)方差分析
方差分析(analysis of variance,ANOVA)是由英国著名统计学家R.A.Fisher提出的,又称 F检验,是通过对数据的变异分解来判断不同样本所代表的总体均值有无差别,用于比较两组或者两组以上样本均数的差别。
基本思想:原始数据对于总体均数的离差平方和可分解成几个部分,每一部分代表一种变异的来源,自由度也可以得到相应的分解,通过对不同来源变差的均方的比较,以判断某种变异原因的存在与否。其中完全随机设计资料的方差分析是较为简单的一种,完全随机设计(completely random design),即只涉及一个处理因素,该因素有两个或两个以上水平,采用完全随机的方法直接将受试对象分配到各个处理水平组。各处理水平组的例数可以相等也可以不等。具体计算过程,本章不作详细介绍。