第三节 怎样选用统计分析方法

在前几节里,我们介绍了社会研究的全过程,分析了贯穿在全过程中两个层次的相互作用,并指出概念的操作化定义是两个层面之间、定性研究与定量研究之间的接口。在经验层次中,数理统计学是社会调查资料进行定量分析的强有力工具。

在着手统计分析之前,应对收集的数据,明确以下几个问题,以便选择恰当的统计方法。

一、全面调查与非全面调查

在经验层次中,从收集资料来看,不外两种情况:一种是对所研究全部对象都进行观察与调查,从而掌握整个单位的全部资料,这种调查称作全面的调查。例如国家统计机关所颁发的各种统计报表或小范围的调查,常采用这种方法。另一种是在全部研究对象中只调查其中的一部分,称作非全面调查。例如个别访问(个案调查)、典型调查、解剖麻雀等等,在非全面调查中,以概率抽样法或简称抽样调查最为重要,它是大型社会调查最常用的方法。所谓抽样调查,就是在一定条件下,不是抽取总体的全部单位,而是科学、客观地抽取总体中一部分单位来加以研究,其目的是获得对于总体性质的正确叙述。

对于全面调查,一般可使用统计描述,所谓统计描述是将所观察的数据、资料,进行整理、归纳和分析,以期找出某些规律。常用的统计方法有频次分布、统计图、统计表、集中趋势测量法、离散趋势测量法、相关等等(详见第二章)。

对于抽样调查,根据社会调查资料随机性的特点,我们不能简单地将部分资料的结论当作总体的特征,因此,仅用统计描述对抽样调查资料进行分析是不够的,还必须根据统计资料的统计规律性,运用概率论,正确地从局部推论到全体。这种根据不完全数据对全体作出正确推论的方法称作统计推论,又称统计归纳。

二、单变量与多变量

在统计分析之前,除了要研究是全面调查还是抽样调查外,还要研究是单变量还是多变量。

如果是单变量,调查的内容仅包括一个或多个相互独立的概念。这时需要对每个独立的变量研究它有哪几种可能变动的情况,有多少人次(频次)或比例(相对频次),其集中和分散的特征如何(详见第二章)。

对于二变量即命题的研究,除了依单变量研究外,还要研究两个变量之间是否存在关系,如果确定了存在关系,那关系的密切程度(强度)又如何?此外,如果资料来源于抽样调查,还要研究这些结论能否推论到全体。

对于多变量的研究,情况将更为复杂。它们除了两两之间可能存在联系,而且还可能存在网状、链状、一因多果或一果多因等多种联系。这些都属于更高层次的统计技巧。

以下是假想的有关儿童行为受父母、祖父母、学校、社会结构、规范因素等影响的多变量分析图,详见图1-4。

图 1-4

三、变量层次

在本章第一节(表1-2)里,我们列举了变量及其可能的取值。为了解变量可能的取值所代表的不同特征,现从中挑选三个有代表性的变量值(表1-10),它实际反映了不同的变量层次。对于性别,它的取值只有类别属性之分。对于重要性,它的取值除了属性还有程度、顺序之分。对于家庭子女数,各取值除了有顺序可比外,变量值之间还可以加或减。例如可以说三个孩子的家庭比二个孩子的家庭多一个孩子:3-2=1。

(一)定类层次的变量

定类变量是变量层次最低的。它的取值只有类别属性之分,而无大小、程度之分。根据变量值,只能知道研究对象是相同或是不同。例如:表1-10中的第一个变量性别,又如婚姻,民族,出生地等等。从数学运算特性来看,定类变量只具有等于或不等于(=、≠)的性质。

表 1-10

(二)定序层次的变量

定序变量的层次高于定类变量。它的取值除了有类别属性之外,还有等级、次序的差别。其数学运算特性除具有等于或不等于(=、≠)之外,还有大于或小于之分(>、<)。常见的定序变量有教育程度(文盲、小学、初中、高中、大学),社会经济地位(上等、中等、下等),积极性(很积极、一般、不积极)以及(表1-10)中的第二个变量“重要性”等。

(三)定距层次的变量

定距变量的层次又高于定序变量。定距变量的取值,除了类别、次序属性之外,取值之间的距离还可用标准化的距离去量度它。其数学运算特性除了等于、不等于;大于、小于(=、≠;>、<)之外,还可以加或减(+,-)。例如(表1-10)中的家庭子女数,如果用一个孩子为单位作为标准化的距离,那么两个孩子的家庭就比一个孩子的家庭多出一个孩子。

(四)定比层次的变量

定比变量是最高层次的变量。它除了具有上述三种属性之外,其取值还可以构成一个有意义的比率。例如,年龄有一个真正有意义的零点(即刚出生),故我们可以说一个年龄30岁的人比一个10岁的人长三倍。

(五)不同层次变量数学运算特性的比较

以下是不同层次变量可作数学运算特性的比较(见表1-11)。

表 1-11

本章要点辅导

1.社会调查在社会学研究中扮演什么角色?

[解]社会调查对于社会学研究,犹如科学实验对于自然科学的研究一样,它是检验社会学理论的源泉与手段。社会学工作者凭借社会这样一个大工厂,通过社会调查,对社会的资料进行收集、整理和分析,以便对社会学的假设、理论进行谨慎的求证。因此,社会调查在社会研究中,扮演重要的角色。

2.社会调查和科学实验有什么不同?

[解]科学实验是科学工作者根据研究的需要,在实验室制造出理想的实验环境,对实验对象进行重复的实验,以期研究科学的规律。以距今450年前人类历史上第一个被发现的定律“气体体积和压强成反比”为例,当时英国科学家波义耳(Boyle)在恒温的环境下,通过改变密闭容器中压力,观察气体体积之改变。这里我们看到科学实验的特点,首先是创造良好的实验环境,以便排除非研究因素对实验结果的影响,例如实验中的温度,就是我们并不研究但要影响实验结果的非研究性因素,因为物体普遍存在热胀冷缩的特性,空气当然也不例外,为此我们必须保证实验环境是恒温的。此外容器必须是密闭的,否则空气有泄漏,体积也会改变,所以空气必须是定量的。满足这些条件后,还必须满足实验过程中,压力可以随意改变,以期观察实验结果的可重复性。

这些进行科学实验的要素,很遗憾,在社会研究中很难实现。首先我们很难找到一个社会现象,能像研究体积那样,只被压力和温度两个仅有的因素所制约。社会现象研究的对象离不开人,而人的行为,除了客观因素,还有主观意识,所以它的因果联系,绝非一两个因素所能解释,甚至还有很多尚不被认知的因素,凡此种种,都使实验环境很难完全地排除非研究因素的影响。同时,我们也不能随意的变动要研究的因素,例如,我们研究年龄和生活满意度的关系,我们既不可能营造出特定密闭的社会环境,更不能人为地改变被调查者的年龄。因此,为了研究,我们只能另辟蹊径,这就是通过社会调查,从社会中就地取材,收集资料。为了模拟年龄变化与满意度的关系,我们采用一次性收集不同年龄段人群的资料,把各年龄段人群满意度的不同,作为年龄与生活满意度的表述。但这和实验室的研究毕竟有所不同,因为社会调查的对象,是群体中的一个个体,一群人中的个体,千差万别,很可能存在我们未知或虽然知晓但无法控制的因素,最终将影响调查的结果。另外,为了排除时间因素的干扰,往往采用将所有可能的因果联系,放在一张问卷中同时调查,但这种照相式的资料收集,分析时就失去了前因后果,时间逻辑上的实证。加之调查的对象,是有主观意识的人,又不像物那样可信。因此社会调查从收集开始,比之科学实验就难得多,成果也不易得到承认,有时还要靠生活中的常识及感受予以印证,当然这对成果有点尴尬。这些问题,已逐步为社会学工作者所意识,例如,美国社会统计学创始人Hubert M.Blalock教授对此也并不讳言,他在1984年来华讲学中就提到:“对于成果,一要谦虚,二要有点幽默。”总之,这向研究者敲起警钟,必须严肃认真、谦虚谨慎的对待社会调查和由此所作出的结论。

3.概念与构念是否有区别?

[解]概念与构念都是抽象名词,都是从一类事物中归纳出来的共同属性。但概念包括的范围更广泛些,一般从人们常用的中术语中演变而来。例如性别、文化程度、收入、宗教信仰等等。构念是更学术化的概念,是科学研究根据研究需要设计出来的概念,如智商、城市化、绿色经济等。概念是社会研究的基本单位。

4.概念与变量是否有区别?

[解]在科学研究中,概念或构念在质和量上是有所变动的,因此概念可被等效为变量进行研究,可以说,变量就是概念数量化的表示方法。

5.如果测量的概念相同,设计的问卷是否也应该相同?

[解]不一定。因为问卷只是抽象概念的操作化定义,这是一种间接测量,而间接测量是不唯一的。就像很多老师用同一种教材,但出的考卷可以不尽相同。

6.那么,问卷是否有好坏之分?

[解]有。衡量问卷一般用两个标准:信度和效度。

所谓信度是指测量的结果是否可靠。例如考试作弊,问卷填答不负责任,这样的测量结果都是不可靠的,如果问卷的结果不可靠,后续的工作都失去了意义,可以说,收集资料的信度,是资料处理的前提和保证。

所谓效度是指测量的结果是否正确反映了所要研究的概念。例如,为了解老人的健康状况,问卷中提了这样的问题:

“你上星期去看过病吗?”

显然,用这样的问题测量老人的健康状况是不全面的。此外,问卷的用语应接近生活,不要用专业用语,以免歧义。总之,效度就像秤上的秤砣,秤砣不准,称出的结果也是不可能准的。

7.问卷的信度和效度在统计分析中能否检查出来?

[解]不能。本书所介绍的社会调查,统计分析是处于调查的最后阶段,也就是社会调查的收获阶段。统计分析是基于前面各步骤正确的基础上进行的。例如问卷中设计的问题,通过良好的操作化定义,保证了测量的效度;调查对象的确定,是依据了科学的抽样程序;调查阶段的回答是真实可靠的,凡有不实之处,调查员已尽可能给予了纠正。有了这些前导步骤的保证,统计分析才是有意义的。

应该说,社会调查方法课程介绍了社会调查过程中前导的各步骤,而社会统计学课程介绍了资料统计分析,两门课程结合起来,完整地介绍了社会调查全过程。

8.什么是确定性现象?

[解]确定性现象是指在某种条件下必然发生的现象。如果把所指的某种条件也看作一种现象(A),那它与随后发生的必然现象(B),两者间就有确定的函数关系:

若A则必有B。

例如一台电视机1万元,那10台电视机必然是10万元。

9.什么是非确定性现象?

[解]非确定性现象是指在某种条件下可能发生也可能不发生的现象。如果把所指的某种条件也看作一种现象(A),那它与随后发生的现象(B),两者间就存有某种关系,但却不是唯一可能发生的,因为还会出现现象C,现象D等等,所以A和B之间只存在可能的关系,而非确定的必然关系,这种非确定性关系,又称相关关系:

若A则可能有B。

例如,男大当婚,女大当嫁。说明人到成年后,就会结婚成家,但这也并非必然现象,有少部分人可能不结婚,独身一辈子。

10.为什么社会现象普遍具有非确定性?

[解]因为任何社会现象产生的原因都是十分复杂的。当我们仅研究其中的某一个或某几个因素时,剩下未被研究的因素对个体就可能呈现不同的状态,因而导致所研究的现象不能完全地确定。例如吸烟是患肺癌的原因,但只能是其中的原因之一,因此出现既有吸烟未患肺癌的人,也有未吸烟却得了肺癌的患者。

11.社会现象的非确定性,给统计分析带来什么特点?

[解]由于社会现象是非确定的,带有随机性质,因此从总体中随机抽取一部分,所得的抽样结果,不能等同于总体所要推论的结果,抽样误差是抽样调查作统计分析必须考虑的。

12.社会现象的统计规律性是如何体现的?

[解]统计规律性表现为社会现象的大量观察。例如一家一户婴儿的性别,无不带有偶然性,而大量统计的结果,婴儿性别比将稳定在各占50%附近摆动,这就是统计规律性的所在,这是必然的。偶然性和必然性的辩证关系表现在:对于每个具体的、个别的观察来说,无不具有局部、偶然因素,这就是社会调查资料具有随机性的一面,但包括偶然因素在内的大量个别原因和个别条件共同作用的结果,使大量观察最终摆脱了偶然性的影响,从而呈现出社会现象的统计规律性。这点在今后大数定理的学习中,还有进一步阐述。

13.全面调查采用何种统计分析方法?

[解]全面调查采用统计描述方法(详见第二章)。这时全面调查已占有了总体的全部资料,无须推及更大范围,所以统计推论分析方法就没有必要使用了。

14.非全面调查是否可以采用统计推论分析方法?

[解]不能。只有非全面调查中的概率抽样才能使用统计推论的分析方法。

15.统计描述分析方法在社会调查中有何功用?

[解]统计描述分析方法(详见第二章),应该说,它是各种社会调查的量化处理的基本方法。对全面调查而言,它的分析就足以全面地反映了总体特征。对于非全面调查中的非概率抽样,也可采用统计描述分析方法,但其结果只是仅供参考,因为人们无法知道它与总体接近的程度,另一种情况,是在大型社会调查的前期准备阶段,往往进行一些小型的非全面调查,以便为建立假设提供依据,这些资料的处理,一般只用统计描述。对于非全面调查中的概率抽样,统计描述的基本内容,如分布、集中趋势、离散趋势、相关、回归等,都是分析的基本内容,但这还不够,为了正确的把结论推到总体,还须增加统计推论。

16.问卷中如果设计了不止一个问题或不止一个概念(变量),是否就是多变量分析?

[解]不是。如果仅是孤立的研究每一个变量的分布、特征值,虽然变量很多,仍是单变量分析。只有研究了变量与变量之间的联系,才称得上是多变量分析。例如某企业的年终报表,其中有工资统计表,各级别人数统计表,这些都是单变量分析。如果同时统计出不同级别的工资报表,那就可以看出级别和工资二个变量之间的关系,这就是多变量分析中的最简单的二变量分析。

17.统计分析为什么要注意变量的层次?

[解]因为变量层次不同,所能进行的运算能力是不同的,因此使用的统计分析方法也就不同。例如性别只有男、女两类,就无法进行量的比较和运算,其中定序、定距变量,所能进行的运算能力都不及定比变量完整,所以不同层次的变量,采用不同的统计方法。

18.以下变量是哪类变量?

(a)职业(b)居住地(c)体重(d)身高(e)拥有手机数(f)门牌号码

(h)对某电影的评价

[解]定类变量:(a)(b)(f)

定距变量:(c)(d)(e)

定序变量:(h)

其中(e)是离散型定距变量。

19.有哪些变量仅仅是定距变量?

[解]在社会学研究中,只满足定距而不能同时满足定比要求的变量并不多。真正可算是定距变量的,大概只有心理学上所用的智商(IQ)了,常人的智商在100左右,并且可认为智商在100与110之间的差别,相当于120与130之间的差别等等。因此,在社会学中一般是不再区分定距或定比,而是当作一类,称作定距变量。

20.变量的层次是否是唯一的?

[解]一个变量,它的层次并不是唯一的。如果变量是高层次的,它也必然可以作为低层次来使用。但降低层次的使用,一般会使资料的信息使用不完全。例如,收入按实际数填写是定距变量。但如果按低薪、一般水平和高薪来填,则是定序变量。而如果只问有无收入,则为定类变量。一般来说,问卷设计中总是按最高层次来询问,这样可使以后的处理变得灵活。例如在询问年龄时,一般问“你年龄多大?”而不会问“你是青年,中年,还是老年?”

另外,变量根据研究内容之不同,其层次也可能不同,例如,性别在医学上如果根据荷尔蒙比例来区分,它是定距变量,而不是定类变量。

21.变量取值间的差距是否反映真实的差距?

[解]变量取值间的差距有时与社会生活实际之间存在的差距有时并不一致。例如,从定距变量来看,收入1000元与2000元之间的差距等于收入10000元与11000元之间的差距。但在实际生活中,收入在1000元与2000元之间,生活水平的差距远比收入在10000元与11000元之间为大。同样两个不同城市的中产阶层距离它们城市富有阶层的生活水平也不尽相同。

22.变量类型的划分是否是唯一的?

[解]变量类型的划分不是唯一的。各领域往往根据自己研究的需要来划分。例如,工业上把收集的数据分作计量型和计数型。数学上,习惯把变量(随机变量)分为离散型和连续型。所谓离散型变量,是变量只可能取有限个或者一串值。例如家庭子女数只能取正整数。连续型变量是它可能取某一区间内所有的值。例如身高、体重、年龄等。

23.根据一次人口资料,老年人的平均身高比青年人矮2厘米,能否认为随着年龄增长,身高会变矮?

[解]不能,因为我们不知道这些老年人年轻时的身高,或许当时的身高就比现在的青年人要矮,或许两种原因都有,这也就是统计结果不能轻率作出结论的缘故。

24.是否可用文字和图表对怎样选择统计方法作一概括?

[解]选择统计方法应考虑三方面因素:

(1)调查资料是否来自全面调查,是选择统计方法首先要考虑的问题。对于全面调查,因为资料本身就呈现了总体的特性,所以只需用统计描述。对于非全面调查,只有概率抽样,才能用到统计推论,就是将抽样结果,科学地推及总体。对非概率抽样,由于挑选的单位,是主观确定的,所以其结果与总体接近的程度无法确定,只具有参考价值。本书介绍的统计方法,对于非全面调查而言,都是指概率抽样,简称抽样。

(2)单变量和多变量。单变量研究是指孤立的研究每一个变量,而多变量研究是指研究变量之间的联系。如果一份调查,虽然包含多个变量,但并不研究变量间的关联,仍然是单变量研究。

(3)变量具有的层次。定类变量是层次最低的变量。依次是定序、定距和定比层次递增。相应各类变量可做的数学运算也不相同,所以统计给出的公式都不相同。但由于社会学中的变量,往往同时满足定距和定比变量的要求,所以不再分述,简称定距变量。

根据以上的分析,可以有如下的概括: