第二节 集中趋势测量法
前面谈了用分布来研究变量,这是最全面的研究方法。在很多情况下,我们并不需要对变量有详尽的了解,而只是要了解其大概,或只要了解分布的主要特征以便简化资料。例如,我们只要大概了解当前青年的结婚年龄等等。于是就产生了用某一个典型的变量值或特征值来代表变量全貌的问题。这个典型的变量值或特征值就称作集中值或集中趋势。当然这样做的结果是会牺牲变量的某些信息的。我们的目的就在于选择这样的集中值,以便用它来估计或预测变量时所产生的误差最小。根据这样的原则,一般有三种方法来选择集中值:一是根据频次,哪个变量值具有的频次最多,就选择哪个变量值。例如,一个城市有多种产业,但如果以旅游业为最多,那就称为旅游城市。当然,并不排斥城市中还会有其他产业。二是根据居中,举例说,如果一个城市的居民生活水平,居中的是小康家庭,那么就用小康家庭来代表一个城市的生活水平。三是根据平均,常见的有用平均成绩来代替一个班级、一个组的水平。下面给出三种集中值和它所适用的变量层次。
一、众值M0
众值就是用具有频次最多的变量值来表示变量的集中值。从某种意义上来说,具有频次最高的变量值,代表性也是最好的。如果变量X具有如下的分布(图2-24):
图 2-24
那么,它的众值为M0=X2。
对于连续型定距变量,如果变量在第i组具有最高的频次密度,则用第i组中心值bi来表示变量的众值。
众值可适用于任何层次的变量,因为只要知道频次分布,就能找到众值。因此,是最易求出的。它特别适用于单峰对称的情况。也是比较两个分布是否相近首先要考虑的参数。对于多峰的图形,由于众值不唯一,一般不用它来讨论。
二、中位值Md
中位值是变量的一个取值,它把观察总数一分为二,其中一半具有比它小的变量值,另一半具有比它大的变量值。所以,中位值是数据序列之中央位置之变量值。
(一)未分组数据
1.根据原始资料求中位值。
当原始数据比较少时,可直接将资料按顺序、大小排队。
当观察总数N为奇数:中位值的地方
或:
当观察总数N为偶数时,由于中位值位于的地方不存在变量值,所以中位值取居中位置左右两数的平均值为中位值。
2.根据频次分布求中位值。
当原始数据很多时,这时可根据分布来求中位值(表2-18)。
表 2-18
中位值对于变量层次在定序以上的都可以使用。因此,对定序变量来说,有两种集中值可供选择。但由于众值不考虑变量次序,所以对定序以上的变量,无疑是一个损失。定序变量一般采用中位值,以求其精确。
(二)分组数据
对于分组数据,可以通过累计百分比中的50%点求出。
1.根据统计表中的累计百分比,找出含有50%的区间(表2-19)。
表 2-19
2.求出含有50%区间的上界值U、下界值L、上界累计百分比U%、下界累计百分比L%和组距h:
3.利用线性插值法,求出累计百分比为50%的变量值(图2-25)。
图 2-25
除了用式(2-1)或式(2-2)计算中位值外,还可直接运用频次来计算中位值,式(2-3)与式(2-1)或式(2-2)都是等效的。
其中n:中位值组的频次
cf↑:含中位值区间的真实下界累积(向上)频次
N:调查总数
中位值是50%分位点所对应的变量值。利用上面的方法,还可以求出10%,25%,75%等等任何一个分位点的变量值。
三、均值
均值仅适用于定距变量。用均值作为变量的集中值,不仅考虑到变量值的频次、次序,而且还考虑到它的大小。数据资料中任何频次、次序和数值大小的变化,都会引起均值的改变。因此它是灵敏的,也是对资料所提供信息运用得最充分的。
(一)未分组数据
1.根据原始资料求均值。
当原始数据比较少时,可直接累加观察值,除以观察总数,以求得均值。
:表示变量X的均值;
:表示资料所观察到的变量值(观察值)的总和;
N:观察总数。
例如:
五户干部家庭人数为:
7;3;11;10;4
六户工人家庭人数为:
6;5;5;8;10;8
根据公式
可见,用集中值比较,说明干部家庭的平均人口与工人家庭的平均人口相同。
2.根据频次分布求均值。
利用频次分布可以简化均值的计算。
公式:
其中n1X1表示变量值X1与它对应频次n1的乘积;
n2X2表示变量值X2与它对应频次n2的乘积;
nkXk表示变量值Xk与它对应频次nk的乘积;
[例]1.求以下550人之平均分数(表2-20)。
表 2-20
为了便于计算值,一般可列如下表格(表2-21)。
表 2-21
如果给出的分布是比例(成数、频率):
那么,均值计算还可以进一步简化为:
为了便于计算值,一般可列如下表格(表2-22)。
表 2-22
(二)分组数据
对于分组数据,可用组中心值来代替变量值。计算方法与未分组数据相同。
例如,以下是对每天上网时间的统计(表2-23):
表 2-23
则均值为:
应该指出,用中心值计算的均值与用原始数据计算的均值相比是有误差的。但对社会学来说,大多数情况下,其精确度已是足够的了。
四、众值、中位值和均值的比较
三值设计的目的是共同的,都是希望通过一个数值来描述整体特征,以便简化资料。它们都是反映了变量的集中趋势。一般说,
众值:适用于定类、定序和定距变量
中位值:适用于定序和定距变量
均值:适用于定距变量。
但有时对于定序变量,如果求平均等级也可使用均值。对于定类变量,如果人为地把每类赋予一个数值,例如男=1;女=0。那么,男性在总体中所占的比例,实际就是这种特殊的均值。由于在统计技术中,发展更多的是均值,而不是中位值或众值。因此,我们应该更多地想法用上均值。
众值仅使用了资料中最大频次这一信息。因此,资料使用是不完全的。实际上在两份资料中只要最大频次所对应的变量值相等,那么,用众值来评价资料,两者就没有区别了。而中位值由于考虑了变量的顺序和居中位置,因此,它和总体的频次分布有关。但由于它只考虑居中位置,因此,其他变量值比中位值大多少或小多少是不影响中位值的。而均值由于既考虑到频次,又考虑变量值的大小,因此它是最灵敏的。
虽然均值对资料的信息利用最充分,但对严重偏态的分布,会失去它应有的代表性。例如,一个国家会因某些少数富人的存在,使平均收入变得很高。因此,对于偏态的分布,应使用中位值作为集中趋势。只有单峰和基本对称的图形,用均值作为集中趋势才是合理的。
偏态和三值的关系如图2-26、图2-27和图2-28。
图2-26 对称图形
图2-27 正偏图形
图2-28 负偏图形
对于对称的图形,众值、中位值和均值三者位置重叠。当图形正偏或负偏时,均值变化最快,中位值次之,众值不变。除了用众值、中位值和均值反映资料的集中趋势外,还有几何平均值、调和平均值等等,这里不再介绍,有兴趣的读者可查阅有关的书籍。
最后需要强调,以上的讨论,都是对单峰而言的。如果数据的分布呈双峰,往往表示数据的实体不属同一类型,这时讨论众值、中位值或均值都是没有意义的。例如托儿所既有成人老师阿姨,又有不满1米的幼童,如果混在一起,讨论托儿所全体人员的集中趋势,是没有意义的。