第二章 单变量统计描述分析
第一节 分布 统计表 统计图
社会学工作者为了从经验层次上证实自己在研究中所建立的概念、假设和理论,一是要正确地收集资料或数据,二是要学会正确地处理这些数据。一般说来,原始的资料,往往都是杂乱无章的,它可能分散在各份问卷之中,也可能分散在他人文章或档案、文献之中。因此,资料如果不进行加工,也许会毫无价值。本章讨论的内容,就是从原始资料加工开始,研究单变量的情况,它包括分布、统计表、统计图、集中和离散趋势的分析,也就是单变量特征的统计分析。对于更复杂的情况,例如问题的分析要涉及不止一个变量,或虽然是单变量,但数据的收集来自抽样,这时本章的内容,只是分析的基础,因为它还必须进行参数估计、统计检验或统计推论。有关内容将在第六章以后讨论。
单变量情况列举:
●某城市的家庭结构如何?有多少直系家庭?有多少联合家庭?又有多少核心家庭?
●某城市居民中有多少种民族?各占比例多少?
●某企业有多少女性员工?其年龄结构如何?
●某学校教师的文化结构如何?
一、分布
“分布”二字使人很自然地联想起森林分布、矿藏分布、民族分布。它们指的是一个地区、一个国家甚至整个世界,其中各个位置或区域里森林或矿藏的数量。社会统计学里指的是一个概念或变量,它的各个情况出现的次数或频次,所以又称频次分布。
举例说,家庭结构是一个概念,由于它的形式不唯一,因此可看做一个变量(X)。于是X的可能取值有:
●X1-—由父母和子女组成的核心家庭。
●X2-—由单一已婚子女组成的三代人家庭,即直系家庭。
●X3-—由多对已婚子女所组成的三代人家庭,即联合家庭。
●X4-—其他。
如果我们将调查结果,按被访人的回答,分别归入上述的四类中去,于是有
如下四对数据:
其中每对数据都用括号括起,表示数据是共存的。括号的第一项表示变量X的一种可能取值,第二项表示该种取值所对应的频次。
所谓分布,实质上就是这些对数的集合。因此,分布的一般形式为:
其中,X1,X2,……,Xn是变量X一切可能的取值,n1,n2,……,nn为其所对应的数值。当n代表不同的含意时,就表示不同的分布。例如,当n表示频次时,以上变量值频次对的集合称作变量的频次分布。当n表示概率时,以上变量值概率对的集合称作概率分布。而如果n代表的是百分比时,则以上变量值百分比对的集合称作百分比分布,又称变量的频率或相对频次分布。
下面谈变量取值要注意的问题:
(一)变量取值必须完备。因为只有这样,才能使被访者(或称每一个观察值)一一无遗地进行归类。
比较以下两个变量的取值表(表2-1和表2-2)。
表 2-1
表 2-2
显然,表2-1对于变量“性别”所列举的可能值是完备的,而表2-2对于变量“收入”所列举的可能值则是不完备的,因为收入在1001-1999元之间的观察值无处归类。
(二)变量取值必须互斥。因为只有结合(一)(二)两点才能使每一个观察值归入一类且仅仅归入一类。否则,由于归类失去唯一性,也就失去归类的意义。
比较表2-3和表2-4两个变量的取值表,显见表2-3中人数是互斥的,因为人数是离散型定距变量。组界上的从5人增至6人和从10人增至11人,中间的小数都不会存在观察对象的。但表2-4组界上的1000元、2000元都同时属于两类,所以分类是不互斥的。但在实际工作中,有时也采用表2-4的形式。这时为了满足互斥性,一般增加“上组界不包括在内”的约定。也就是说,凡收入为1000元者,归入1000-2000元档,凡收入为2000元者,归入2000元以上档,从而满足了互斥性的要求。
表 2-3
表 2-4
综合表2-2至表2-4,它们有一个共同的特点,即变量值的分类都是以分组式的形式给出,简称组距式分类。依此进行的分类,并以表格的形式给出统计的结果,称组距式统计表。对于组距式统计表,为了满足互斥性,除了必要时增加新约定外,还可采用增加组界值精度的方法。详见本节下面有关统计表中(三)定距变量介绍的内容。
二、统计表
所谓统计表就是用表格形式来表示前面所说变量的分布。它不需用文字叙述,就能反映出资料的特性以及资料之间的关系。因之,在编印、传递方面有很大的优点。比之统计图有更高的精确性,但缺点是不及统计图直观。
下面根据变量的层次,讨论统计表制作上的特点。
(一)定类变量
下面(表2-5、表2-6)是定类变量的统计表。为了叙述的方便,不妨假定以下是2130户家庭的统计结果。
表2-5 家庭结构的频次分布
(××地,1985.6)
表2-6 家庭结构的百分比分布
(××地,1985.6)
结论:
1.上面两种统计表(表2-5、表2-6),实际上是等价的。因为通过频次就可换算为百分比,反之亦然。因此,在实际报表中,有一种就够了。但要注意在百分比统计表(表2-6)中,最后一定要注明统计总数。这不仅是为了能够还原为频次表,而且,如果是抽样调查的话,还存在检验上的意义。这点在有关统计推论的章节中还会讲到。
2.统计表必须具备的内容有:
表号:统计表X.X或X—X。
表头:包括标题、时间、地点。
标识行:其中第一列为变量名称,例如以上所举的“家庭结构”。第二列为变量对应数的说明,例如以上所举的“频次”“百分比”等。
主体行:由于变量取值的不唯一性,这部分至少要有两行以上。第一列位置,按行填写变量的不同取值,取值的顺序可以任意,这一项又称主词。第二列位置,按行填写变量取值相应的频次、百分比等等。有时为了阅读的醒目,也可将频次和百分比都列在一张表上。这时,一般第二列排频次值,第三列排百分比,第二列以后的内容又称宾词(见表2-7)。对于只有百分比的统计表,要写明统计总数。
表尾:如果引用的是间接资料,要写清资料来源。
检验统计表是否正确,可根据统计表中的百分比总和来判断。如果百分比总和少于100%,表示有的个案情况未能包括在统计表里,即变量取值不满足完备性;反之,如果百分比总和大于100%,则必有某些个案情况被同时统计在不止一类,即变量取值不满足互斥性。因此只有百分比总和等于100%时才能表示统计表中变量取值的分类是正确的。但在实际计算中,由于“四舍五入”的缘故,百分比总和有时是100.1%或99.9%等,这些都不算错。
(二)定序变量
定序变量统计表内容、制作方法与定类变量相同。所不同的是,由于定序变量的取值有大小次序之分,因此在统计表制作时,应保留其变化趋势,不要任意打乱。例如某电影厂为了解群众对武打片是否爱看,将喜爱程度分为五等:非常爱看;爱看;一般;不爱看;很反感。因此在统计表中,变量取值的排列也应保持以上的次序(表2-7)。
表2-7××单位对武打片的反映统计
(三)定距变量
对于定距变量,我们要区分它是连续型定距变量,还是离散型定距变量。例如,家庭子女数就是离散型定距变量。它只能取正整数。离散型定距变量的制表方法一般与定序变量的制表方法相同。统计表中的变量数值,按取值的大小排列,不要任意打乱。但这样的制表方法,有时也会遇到困难,例如当变量取值的变化幅度过大,因此,如果一一列举,势必形成很长的分类,而每一类的频次又变得很少,这时宜采用组距式统计表,如表2-3的形式。为了使用上适用于组距式统计表的统计方法,需将原表中的组界连续化,写成0.5-5.5;5.5-10.5;10.5-20.5。此法称将原表中的标明组界转化为真实组界(参见表2-9)。
对于连续型变量,由于任意两变量之间的取值都是无穷的,而且,原则上来讲,也没有任意两个观察值是绝对相等的,因此,我们无法简单地运用上述的分布,使之每一个取值对应一个确定的频次或百分比。解决的办法是将变量值分为若干个区间或组,然后统计每一个组内的频次或百分数。例如婚龄问题,由于自成年以后,可在任何一个年龄结婚,因此婚龄是一个连续型定距变量。为了研究婚龄的分布就要将婚龄分组。但组分多少合适呢?是按15-20岁;21-25岁;……分呢?还是一岁一分组呢?或是全部按等距分组呢?还是人数集中的地方分得细一些,人数少的地方分得粗一些呢?即非等距的分组法分呢?在实际中要考虑如下几个问题:
1.组数:组数太少会掩盖变量变动时频次的变化。极端的情况下,如果只分一个组,那就什么变化也看不出了。但组数太多,又会使每组内频次过少,增加偶然因素,使各组高度参差不齐,看不出明显的规律。一般调查总数N与分组数有如下经验性关系(表2-8)。
表 2-8
2.等距分组与非等距分组:一般来说都是采用等距分组。如人口学中一般以5年作为一档,这样20档正好代表人的寿命为1-100岁。但在社会学中,也并非全是等距分组更能反映现象本质的。例如,收入为月薪1千元或2千元的职工,他们的生活水平差距是显著的,但月薪为1万元和1.1万元之间,其生活水平差距就小得多,而且这样的人数也少些,因此,在分组时,应将低收入分得细一些,高收入分得粗些,这种非等距分组更能反映现象的本质。
3.如何决定分点的精度:前面我们谈到,年龄的分组可采用1-5岁;6-10岁;等等。这是统计年龄的精度以年为标准的。如果我们统计的精度增高,例如说,统计到月,那么,5岁半的儿童是分到第一组呢,还是分到第二组呢?可见,随着精度的提高,分组点的精度也要提高。一般分组点比原统计资料的精度要高一位。如统计资料的精度为整数,则分组点就取小数点后面一位计算。举例说,原统计资料的年龄以年计算,统计范围为1-8岁,按2岁一个分组,即有:
1-2岁;3-4岁;5-6岁;7-8岁。4个分组。为此,应在上述分组值±0.5岁,得:
0.5-2.5岁;2.5-4.5岁;4.5-6.5岁;6.5-8.5岁。前者称标明组界,后者称真实组界,试比较上述资料两种组界定义的不同(表2-9)。
表 2-9
可见,真实组界值是相邻两组标明组界值的中点,它的精度比标明组界要高一位,组与组的分界是连续的,而标明组界则是离散的。标明组界只是分组资料的简化表示,而在实际运算时,都要用到真实组界。
下面通过一个实例,来看分组统计表是如何制作的。
表2-10是一百个同龄儿童的身高统计,试作统计表。
表 2-10
步骤1.收集数据,写成10×10数据表(表2-10),数据总数N=100(数据单位“米”)。
步骤2.找出表2-10数据中最大值L,最小值S和极差(Range)R。
先在数据表内找出各列的最大值(▲)和最小值(×),然后找出全体数据的最大值L和最小值S。数据极差R等于最大值L和最小值S之差。
步骤3.把数据分组。根据表2-8取分组数K=10。
步骤4.计算组距h
步骤5.根据组距h和分点精度比原统计数据精度高一位的原则,将数据分为如下10组:
1.265~1.295;1.295~1.325;1.325~1.355;……;1.535~1.565
步骤6.计算各组的中心值bi
中心值是每组中间的数值,可按下式计算:
于是各组的中心值有:
1.28;1.31;1.34;1.37;1.40;1.43;1.46;1.49;1.52;1.55
步骤7.作频次分布表,即统计表(表2-11)。
表2-11 频次分布表
根据表2-10用唱票的办法画“正”字,进行频次统计,每组的数目,称作频次。频次与统计总数之比称作相对频次(频率),如再乘100,就是百分比。
最后一行中频次总和应等于调查总数,否则表示统计过程中有错。
三、统计图
所谓统计图就是用图形的形式来表示变量的分布,所以又称分布图。它和统计表一样,也不需要文字叙述,就能反映出资料的特性以及资料之间的关系。同时还具有比统计表更为直观与形象的特点。但缺点是不及统计表精确。
根据变量的层次,可选择以下不同的统计图形:
定类变量:圆瓣图;条形图。
定序变量:条形图。
定距变量:直方图;折线图。
(一)圆瓣图
圆瓣图是将资料展示在一个圆平面上,通常用圆形代表现象的总体,用圆瓣代表现象中一种情况,其大小代表变量取值在总体中所占的百分比。
圆瓣图的制作方法是将统计表中的百分比乘以360°,即可得各圆瓣之圆心角度数。现以表2-6为例,说明如何绘制圆瓣图(表2-12、图2-1)。
表2-12 家庭结构的百分比分布及对应圆心角度数
图2-1 家庭结构分布图
由于圆瓣图只表示变量取值在总体中所占的比例,而对变量取值的排列没有要求,因此圆瓣图多用于定类变量。
(二)条形图
条形图是用长条的高度来表示资料类别的频次或百分比。而长条的宽度没有意义,一般都画成等宽长条。长条既可画成平行于横轴,也可画成平行于纵轴。如果是定类变量,图形画作离散的长条;如果是定序变量,则长条的排列次序应与变量取值的次序相一致,且图形可画作紧挨着的长条或离散的长条。
定类变量:长条排列次序可以任意,条形是离散的(图2-2)。
图 2-2
定序变量:长条按序排列,条形可以是紧挨着的(图2-3),也可以是离散的(图2-4)。
图 2-3
图 2-4
(三)直方图
直方图从图形来看,也是由紧挨着的长条所组成(图2-6),但它与条形图不同,直方图的宽度是有意义的。一般说,直方图是以长条的面积(长与宽的乘积)来表示频次或相对频次。而条形的长度,即纵轴高度表示的是频次密度(单位组距所含有的频次)或相对频次密度:
直方图仅适用于定距变量。用密度作为条形高度的原因,在于连续型定距变量可采用非等距分组的缘故。对于等距分组,用频次或密度作为条形高度,图形的相对比例关系是不变的,因此,仍可用频次(或称频数)作为条形的相对高度。但在非等距分组情况下,如果用频次作为条形高度,将会产生错误。举例说,婚龄统计(表2-13)中有如下两组数据:
表 2-13
如果根据频次来比较,就会得出40-50岁结婚的人比26-27岁结婚的人还多,显然这是错误的。正确的方法,应该根据频次密度来比较和画直方图(图2-5)。
图 2-5
可见,在26-27岁结婚的频次密度远比40-50岁之间的频次密度为高。
下面是根据表2-11所作有关100个同龄儿童身高的频数分布直方图(图2-6)。
图 2-6
根据直方图(图2-6),可以清晰看出,所统计的同龄儿童,身高基本集中在1.355-1.445 m,太高和太矮的儿童都比较少见。
(四)折线图
如果用直线连接直方图中条形顶端的中点,就得折线图。折线图可使资料频次分布的趋势更一目了然。
对于离散型定距变量,将变量值、频数对(Xi,ni)的集合(频次分布),根据坐标连成的图就是折线图(见图2-7)。
图 2-7
对于连续型定距变量,用组中心值bi代替变量值,并用该组相应的频次作为bi的频次,于是(bi,ni)坐标的连线就是折线图(见图2-8)。
当组距逐渐减小时,折线将逐渐平滑为曲线。
图 2-8
四、累计图和累计表
统计图和统计表告诉我们的是某一个变量值(或某一组)所对应的频次是多少。但有时我们不仅需要了解频次分布,还需要了解小于某一变量值或大于某一变量值总共的频次是多少,这时就要用到图和表的累计表示。所谓累计图或累计表,表示的是大于某个变量值的频次是多少或小于某个变量值的频次是多少。
下面通过例子来比较统计图、表和累计图、表。
表2-14和图2-9表示的是某少数民族地区12户家庭子女数的统计表和统计图。
表 2-14
图 2-9
现在用cf↑表示小于某一个子女数的累计频次
cf↓表示大于某一个子女数的累计频次
以下(表2-15、图2-10、图2-11)是根据表2-14和图2-9所做的cf↑和cf↓累计分布表和分布图。
表2-15 频次分布与累计频次分布
图2-10 cf↑直方图和cf↑折线图
图2-11 cf↓直方图和cf↓折线图
同理,如果把频次换成频率,还可以做成累计频率c%↑或c%↓分布图。
累计图和表的应用,在于通过它可以比较个体在总体中的位置。举例说,甲、乙两同学分别在班里都考得80分,那么谁在班里的成绩更好呢?为此,先将两班的成绩做成累计图,然后计算80分在两班所对应的累计频次,设其结果是:
甲:cf↑=95
乙:cf↑=60
为了计算方便,设两班人数都为N=100人,于是通过计算:
可以求得甲、乙各自在班里的累计百分比c%↑。
甲:c%↑=95%
乙:c%↑=60%
可见,甲在班里考试成绩为80分,意味着班里有95%的人,低于他的成绩,而乙在班里虽然考试成绩也是80分,但在班里只有60%的人低于他的成绩,可见,甲在班里的相对成绩远比乙好。
累计图和表的应用,还可举洛伦茨曲线为例。它是西方经济学中描述收入分配中平均程度的一种方法。其中以家庭(或人数)累计百分比为X轴,收入累计百分比为y轴。当所有家庭具有相同收入时,x的取值与y的取值相同(表2-16),即占总数10%的家庭占有总收入的10%,占有20%的家庭占有总收入的20%,其余可以此类推。这称作完全的平均分配直线。这时x和y的关系表现为原点(0,0)至点(100,100)的对角线(图2-12)。反之,当社会财富集中在极少数人手中,极限的情况如表2-17所示,称为完全的分配不均。而实际情况将是介于两者间的曲线,又称洛伦茨曲线。收入分配愈不平均,洛伦茨曲线愈下凹。
表 2-16
表 2-17
根据洛伦茨曲线组成的基尼系数(又称洛伦茨系数,图2-12):
图 2-12
A为完全平均分配直线和洛伦茨曲线所包含的面积。A+B为完全平均分配直线下的直角三角形面积。G=0表示分配完全平均。G=1表示收入分配完全的不平均。G的取值范围是:
0≤G≤1[3]
五、分布图分析
当直方图的组距逐渐变小时,折线图将逐渐平滑为曲线。对于曲线可作以下几方面的研究。
(一)峰点研究
人们首先可以看到的是图形有几个峰点。如果只有一个变量值对应的频数最高,或某一个区间对应的频数密度最高,且向两边逐渐递减,则称单峰图形(图2-13)。如果不止一个峰点,则称多峰图形(图2-14)。
图 2-13
图 2-14
(二)对称研究
如果图形能找到一个对称轴,使对称轴两边的资料分布完全相同,则称图形是对称的。对于对称图形,如按对称轴对折,图形两边将重合(图2-15)。相反,如果图形不能找到这样一个对称轴,则称为非对称图形(图2-16),又称偏态图形。凡偏态图形左边尾巴拖得较长的称左偏态或负向偏态(图2-17),右边尾巴拖得较长的称右偏态或正向偏态(图2-18)。
图 2-15
图 2-16
图 2-17
图 2-18
以上所列举的各种图形以单峰、对称的钟形图形最为常见,如图2-15所示,它称作正态分布图。例如婚龄、身高、体重等分布都满足正态分布。以后我们还将详细讨论它。
(三)U形曲线与J形曲线
除了以上所谈的各种图形外,在社会学中还可能碰到的图形有U形(图2-19)和J形(图2-20)。
例如,人口死亡率和年龄的关系满足U形分布。婚姻次数与人数满足J形分布。
图 2-19
图 2-20
通过分布图的形状不仅可以帮助我们更好地了解变量,而且还可以帮助我们更好地比较变量。例如,如果一个国家的收入分布图是对称的,而另一个国家的收入分布图是偏态的,那么,我们可以知道这两个国家的社会经济结构有很大的不同。又如,两个国家的产业分布图分别如图2-21和图2-22所示。那么,这两个国家发达的程度将相差甚远。
图 2-21
图 2-22
最后需要指出的是分布图的形状,会随着分组的不同而改变。以前面的家庭子女数为例(图2-9),它是单峰右偏态形,但如果我们把子女数0;1;2合并为一组,3;4;5合并为一组,于是得到图2-23,这时它已接近J形的图形了。
图 2-23
六、本节小结
本节讨论的内容是统计分析的第一步。通过频次分布,把杂乱无章的原始数据进行整理。有了分布,可以看出统计的频次大概集中在变量值的哪一部分以及频次随变量值变化的趋势。同时,通过分布还可对不同总体的统计进行比较。
统计图和统计表都是为着表达变量的分布的。分布是绘制统计图和统计表的基础。没有分布也就无法绘制相应的图和表。
这里介绍的只是单变量的分布和相应的图、表。多变量的情况没有涉及。