第二节 社会调查资料的特点和统计学的运用

上节介绍了社会调查研究的全过程,下面将从概念的操作化定义(变量)所收集到资料的特点,阐明分析资料需要采用统计学的原因。

一、社会调查资料的特点

(一)随机性

所谓随机性,指的是客观现象所具有的不确定性。客观现象可以分作确定性现象和非确定性现象。例如,物体在重力作用下的降落是确定性的。我们只要知道物体开始降落时刻的高度和速度,就可以完全肯定的预言在随后任一时刻的运动情况。同样,水在常压下,加热到100℃必然沸腾,这也是确定性现象。对于确定性现象,其因果关系可归纳为:

若A,则必有B。

A与B之间,存在着确定性的函数关系

B=f(A)

和确定的函数图形(图1-2)。

图 1-2

非确定性现象是指在某种条件下可能发生也可能不发生的现象。同样,如果把所指的某种条件也看做是一种现象,那么这两种现象可以说存在着某种关系,但却不是唯一的,是非确定性关系。比如说,如果两性具有同样的价值观,则他们就可能结为伴侣。这里只存在可能性,而非必然结为伴侣。实际上同样的价值观只能是两性结合的一项重要条件,但并不是全部条件。因此非确定性关系可归纳为:

若A,则可能有B,

但也可能有C;

D;

E.

A与B之间,表现为非确定性关系。A和B之间虽然没有确定的函数关系和确定的函数图形,但A和B之间,仍然存在某种联系,其图形为(图1-3):

图 1-3

通过散布图(图1-3),我们仍能看出A与B之间的联系。例如,身高与体重之间之关系就表现为如上的散布图。

任何社会现象产生的原因都是十分复杂的。当我们仅研究其中的某一个或某几个因素时,剩下的未被研究的因素就可能处在不同的状态,从而导致现象不能完全的确定。因此,大部分社会现象都具有非确定性,现象与现象之间联系的命题也往往是非确定性的。我们不能像水到100℃必然沸腾那样来预言人到了某一年龄必然结婚。同样,也不能像抽查一滴水而知所有水的成分,或抽查一部分人就知道全体人的情况。下面举例说明。

[例]1.下面列举了某企业全部女工的结婚年龄。假设总数N=100(表1-4)。

表 1-4

企业女工的平均结婚年龄(总体平均值):

现在如果进行的不是全体统计,而是抽查。例如从中任意地抽查十名,并计算抽查的平均结婚年龄。并假设这样的抽查共进行了四次。于是有:

可见,四次抽样结果相互都不相等,且都不等于总体的平均值:

读者如果有兴趣,不妨自己也试一下:把人名代号作为一百个阄,充分搅乱,从中摸十个,计算它的平均结婚年龄。

从上面四次抽样结果可以看出,对于社会调查资料,不存在局部平均值等于总体平均值的公式。这是和确定性现象“化验一滴水的成分就知道所有水的成分”所不同的。

下面再举一个总体百分数不等于抽样百分数的例子。

[例]2.以下列举某企业职工对独生子女的看法。其中括号内的人名代号表示不赞成独生子女的。假设男、女总数都是100名(表1-5)。

表 1-5

于是,总体情况有(表1-6):

表1-6 总 体 状 况

与[例]1一样,为了比较总体与抽样结果,再进行抽查。每次男、女各25人。抽查的方法,仍然是抓阄,这样可以排除主观因素的干扰。下面列出二次抽查的结果(表1-7和表1-8)。如果读者有兴趣,不妨可以再抽几次,并记录其抽样结果。

表1-7 第一次抽查

表1-8 第二次抽查

比较表1-7和表1-8两次抽查的结果,其中第一次不赞成的人数是男多于女,而第二次却是女多于男。而我们知道实际总体(表1-6)中男、女不赞成的总数是相等的,都等于30%。可见,抽样结果的男多于女或女多于男都不反映总体的真实情况。

(二)统计规律性

以上谈了社会调查资料的随机性、多种可能性或不确定性。由于存在着不确定性,因此在统计分析时,不能把局部的抽样结果或特征就看做总体的特征,但不确定性只是随机现象的一个方面,另一方面则是它潜在的统计规律性。婴儿的性别比就是一例。各家各户生男生女纯属偶然,但表1-9所列某市婴儿出生的情况,清楚地表明男、女的性别比在大量统计的基础上却一直在50%左右摆动。

表1-9 某市1956-1975年婴儿出生数及所占百分比

资料来源:《社会》1983年第2期。

可见,表面杂乱无章的随机现象,实际上是有其内在规律性的。恩格斯说过,“在表面上是偶然性在起作用的地方,这种偶然性始终是受内部的隐蔽着的规律支配的,而问题只是在于发现这些规律”[1]。表1-9中婴儿性别的百分比就是隐蔽着的内部数量规律。这种规律性随着观察数目的增加将越为明显。

结论:对于随机现象,人们要看到它的两面性,一方面是不能简单地把抽样结果就当作总体的结果;另一方面,两者也并非毫无关系,两者存在着统计的内在规律性。正是这种规律性,使我们透过抽样可以推论总体。也就是说,抽样结果与总体性质是两个既有差别又有内在联系的两个量。

二、统计学的运用

统计学一词源远流长,它的含意随着时代的进步也在不断地变化。它的发源可追溯到拉丁词“status”,是中世纪拉丁语中国家的意义。最初统计学是用文字描述一个国家的情况和制度。到19世纪,统计学逐渐形成狭隘的意义:“用数字的方法说明国家的特征。”后来管理国家要掌握的数字(据)实在太多,而且还涉及如何收集这些数据,于是统计学被用作是指这类数据收集、整理、分析和推论的方法。

从收集具有数据意义的统计资料来说,社会统计应包括一切与社会研究有关的定量数据。从这个意义上来说,要界定社会统计学的领域与范围是很不容易的。因为统计的内容是不断变化的,同时与部门统计也有一定的重复。例如婚姻和家庭的统计,既是人口学感兴趣的,也是社会学感兴趣的;健康与疾病的统计既是医学工作者感兴趣的,也是社会统计感兴趣的。例如,我国国家统计局制定了《社会统计指标体系(草案)》,其中规定了社会统计内容有十三个大类:(1)自然环境;(2)人口与家庭;(3)劳动;(4)居民收入与消费;(5)劳动保险与社会福利;(6)住房与生活服务;(7)教育与培训;(8)科学研究;(9)环境与卫生保护;(10)文化与体育;(11)生活时间分配;(12)社会秩序与安全;(13)政治活动与社会活动参与情况。

本书要介绍的社会统计学,并非指上面所介绍的具有数据意义的资料统计,而是它的最后一种含义,即介绍有关社会调查资料收集、整理、分析和推论的统计方法。基于本节前面所介绍社会调查资料的随机性,以及由此产生的抽样结果的不确定性,决定了社会调查资料的分析和推论只能采用研究客观世界随机现象的数学工具,在我国称数理统计学,在西方称统计学,它是原有统计学含意的延伸和发展。

数理统计学的分析方法不仅可以用于社会调查资料的分析,它在其他一切具有随机现象的领域都有着广泛的运用。例如它用于教育学称教育统计学;用于医学称医学统计学;用于体育称体育统计学。这些应用统计学虽然运用的领域各不相同,但由于所用的数学理论工具都是以概率论为基础的数理统计学,因此各应用统计学介绍方法的框架大致相同。所不同的是多结合本学科的内容介绍统计的方法,以便读者更直接地学到统计学在本学科的运用。从这个意义上来说,各领域的应用统计学应加强联系。读者不仅要看本学科的统计分析,还可以看看其他领域的统计学,以便不断吸收其他学科在统计方法上的新成就。实际上,各学科的统计学家也正是这样做的。例如1921年遗传学家S.Wright首创的路径分析,60年代为Simon和Blalock引进社会学后,已成为社会学因果分析中一个强有力的工具。

以上谈了社会统计学和其他应用统计学的共性。但是社会统计学也有它一定的特殊性。首先社会研究的内容往往是一些抽象概念,它只有经过操作化定义,形成一系列明确的问题,才能收集资料。因此社会学家除了关心社会统计分析,还要关心如何设计好问卷。其次,社会统计分析中资料收集的对象是人而不是物。对于被测量对象是物体来说,它是不可能拒绝被测或故意显示不正确的结果的,除非测量的仪器出了毛病。但是对于测量的对象人来说,是有主观意识的,他可以拒绝合作和回答,或虽然回答,但内容并不真实,因而收集资料本身要困难得多且误差很大,因此如何对付收集资料中的种种困难,提高有效问卷的回收率,也是进行社会统计分析的独特课题。此外社会统计中收集到的资料,往往有很多是低层次的变量,如定类、定序变量[2]。因此定类、定序变量统计分析方法在社会统计学中占有很大的篇幅。

三、统计分析的作用及主要内容

以上介绍了社会统计资料的特点,以及运用数理统计学作为资料分析、推论主要手段的必要性。下面根据本章的社会研究循环图(图1-1)来分析在研究的哪些环节中需要运用统计分析,或者说,统计分析的前导是什么。首先在理论和假设阶段,基本上运用定性分析。对于操作化手段,也不是统计分析所能解决的。正如前面指出,它取决于研究人员对问题理解的深度和研究水平。正如医生对病情的询问,必须弄清楚哪些疾病可能会有哪些特征一样,否则将是无的放矢。经过多年国内外社会学工作者的努力,已累积了不少行之有效的概念操作化定义,简称量表。例如态度量表、生活满意程度量表、精神健康量表等等,这些都可作为进一步开展社会学研究的借鉴。

可见,没有理论、假设的定性研究,就没有进一步定量分析的基础。而没有操作化手段就无法完成定性研究向定量研究的转化。因此,理论、假设、操作化都是统计分析的前导。或者说,统计分析是否确有价值、是否正确都是以前导研究为基础的。

在实践和经验概括阶段,要完成资料的测量和度量,为此要研究资料如何收集、整理、分析和推论,以便验证初始的理论、假设。这时需要用到统计分析。但是要指出的是统计分析的完成是一个整体。例如,正确的分析来源于正确地收集资料,因此,如果数据的收集没有按照统计分析的要求去做,或者资料的收集不可靠,那么统计分析的结果就可能是虚假的。而我们知道,虚假信息甚至比没有结果还会产生更大的危害。因此,广义来说,统计分析的前导,不仅包括理论、假设、操作化,而且包括科学的收集数据、回收资料的信度和效度。这些条件就构成了统计分析能否被成功运用的前提或假定。可见,统计分析在社会调查研究中的功用,主要表现在经验层次的大面积数据处理方面。有人认为统计学应称作数据科学也是不无道理的。的确,统计学是数据分析理论和过程的主体。当然这样说,也并不排斥在定性研究阶段,运用统计技术对资料的信度与效度作一定的评估。

总之,在资料分析之前,一定要注意使用统计分析的前提是否满足:资料的信度和效度;资料收集的科学性;资料在总体中的分布是否满足统计分析的要求等等。

除了以上要注意的问题外,还须强调的是对于统计结果不能轻率地作因果的结论。举例说,统计资料表明,经常服用补钙品的人群,骨折的比例反倒高于不服用补钙品的人群,那是否意味着补钙会引起骨折呢?不,这是由于统计中补钙的人群多为老人,不服用补钙品的多为青、壮年,而老人骨质下降,才是引起骨折的主要原因。

本书统计分析主要分两部分:统计描述和统计推论。在统计描述的分析里,主要介绍资料的整理、分类和简化或特征研究。在统计推论中,主要介绍参数估计、假设检验、回归、列联。