第二节 问卷设计

一、问卷设计的原则

(一)目的性

问卷必须按研究者提出的目的来设计。问卷中的每一个问题都应与研究目的相关,通常不应该包括无关的问题。但有时,某些研究只有在被测者不注意或不知道研究的真正目的的情况下才能得到真实的答案,这时可以有意在问卷中安排一些掩盖真正目的的问题,但这些问题并非研究者的兴趣所在。

在实际工作中,问题是依据研究目标提出的。研究目标是指根据研究目的拟出的可以衡量的一系列项目。从研究目的到研究目标,至最后列出各个具体问题,是抽象概念操作化的过程。

(二)反向性

问卷的设计与研究步骤恰好相反,问卷中的问题是在考虑了最终想要得到的结果的基础上反推出来的。这种反向原则能够保证问卷中的每一个问题都不偏离研究者的目的,而且,在提出问题时,已充分考虑了问题的统计分析方法,避免出现无法分析和处理或使处理过程复杂化的问题和答案。

(三)实用性

问卷的提问用词必须得当,容易被理解。要求所用词句必须简单清楚,具体而不抽象,尽量避免使用专业术语。要考虑应答人的背景和兴趣、知识和能力等,鼓励应答者尽其最大的能力来回答问卷。

二、问卷的结构

问卷作为社会医学的一种测量工具,须具备统一性、稳定性和实用性的特点。在长期的调查实践中,人们逐渐总结出一套较为固定的问卷结构。问卷一般包括以下几个部分:封面信、指导语、问题及答案、编码等。

(一)封面信

封面信是一封致被调查者的短信,通常放在问卷的最前面。封面信需说明调查者的身份、调查目的、调查的意义和主要内容。封面信是取得被调查者信任和合作的一个重要环节。自填式问卷的封面信通常要比访谈式问卷复杂些,还需要把填表的要求、方法以及寄回的时间等内容写进信中。

(二)指导语

指导语是对填写问卷的说明,即对如何回答问题或选择答案做出明确的说明,对问题中的一些概念和名词给予通俗易懂的解释,有时甚至可以举例说明答卷方法。总之,对问卷中可能引起疑问或多种理解的地方都要说清楚。指导语依问卷形式而异,自填式问卷是对被调查者的指导语,而访谈式问卷是对调查员的指导语,所以在语气、方式等方面均有所差异。由于调查员在调查前一般要经过培训,一些访谈式问卷并不把指导语放在问卷中,而是放在调查手册中。

(三)问题及答案

问题和答案是问卷的主体。问卷中的封面信、指导语等都是为问题和答案服务的。从问题测量的内容上,可以将问题分为特征问题、行为问题和态度问题三类。特征问题用以测量被调查者的基本情况,如年龄、性别、职业、文化程度、婚姻状况等,通常是各种问卷必不可少的一部分。行为问题测量的是被调查者过去发生的或正在进行的某些行为和事件,如吸烟、饮酒、患病、就医等。行为问题是了解各种社会现象、社会事件、社会过程的重要内容。通过这类问题,可以掌握某些事物或人们的某类行为的历史、现状、程度、范围和特点等情况。特征问题与行为问题统称为事实问题,它们是有关被调查者的客观事实。态度问题用以测量被调查者对某一事物的看法、认识、意愿等主观因素,是许多问卷中极为重要的测量内容。了解社会现象的目的,不仅是描述它,更重要的是解释和说明这一社会现象产生的原因。态度问题是揭示某现象产生的直接原因和社会历史原因的关键一环。由于态度问题往往涉及个人内心深处的东西,而任何人都具有一种本能的自我防卫心理,难吐真言,甚至不愿发表意见,所以在调查中了解态度问题比了解事实问题困难得多。一个问卷中不一定必须同时具备三种类型的问题。根据是否对问题提供被选答案,也可以将问题分为开放式问题和封闭式问题两种。提供了被选答案的问题称为开放式问题,不提供任何答案的问题称为封闭式问题。

(四)编码

编码见前述相关内容。

三、问卷设计的步骤

(一)明确研究的目的和手段

在设计问卷之前,必须首先明确:研究的目的是什么?采用问卷调查的方式能否提供研究所需的信息,或者问卷调查是否为最佳的或唯一的方式?问卷测量要达到的目的是预测将来发生的结局,还是辨别不同的研究对象某些特征的差异,或是评价研究对象的现况?不同的测量目的对问卷提出的要求是不同的,大多数问卷通常只适用于一个目的,如果目的过多,势必要增加问卷的复杂性,对问卷的设计提出更高的要求。

(二)建立问题库

问题的来源主要有两个途径。

1.头脑风暴法

头脑风暴法主要适用于首次涉及的测量领域,或对已有的问卷进行修改,以适用于测量人群或测量目的改变的情况。可以由与调查有关的人员,如被调查者及其家属、医生、护士、社会学家等组成研究小组,让他们围绕研究目的和基本内容,自由发表意见,提出各种可能的问题。由于不同的对象在提出问题时考虑的角度不同,被调查者依据的多是自己的亲身体验或感受,而医生、护士、社会学家等则主要依据理论、经验积累或研究发现,所以问题跨度很大,内容也很丰富,通常会形成一个庞大的问题库,但其中有许多无关或重复的问题,需要进一步筛检。至于问题库是否全面,则要视所选择的参加提问人员的代表性和样本量而定。这方面的问题可参阅有关的统计学书籍。

2.借用其他问卷的条目

从已有的问卷中筛选符合研究目的的条目,是一种常用的方法,由于大多数问卷已经过反复应用和检验,借来的条目多有较好的信度和效度。尽管如此,新设计组合的问卷仍然要检验信度和效度,即使是把一个外文问卷完整翻译成本国文字亦需做此检验。在我国,引用外文问卷非常普遍,其最大的优点是便于与国外同类研究相比较,然而,译文的规范化及其信度和效度问题必须引起研究人员的重视。一般要求译文至少包括翻译和回译两个步骤,而且翻译者和回译者应该是不同的人,这样才能保证译文的准确性。

(三)设计问卷初稿

设计问卷初稿包括从问题库中筛选合适的条目,并进行适当的归类和合并处理;将问题的描述标准化、规范化;进行初步的量化处理;合理安排问题顺序;合理组合成结构完整的问卷等。

(四)试用和修改

问卷初稿完成后,要在研究对象中进行预调查,发现与研究目的关系不大或描述不清楚的问题,以及遗漏的重要问题。预调查是非常重要的一个环节。参加预调查的人群不一定要通过随机抽样确定,但是,如果预调查人群与研究对象差异过大,则可能达不到检验问卷质量的目的。预调查结果也可以进行统计分析,以决定条目的取舍。

(五)信度与效度的检验

问卷的最终质量要通过信度和效度检验来评价,经过信度和效度检验后才能确定问卷的正式应用版本。

四、问题和答案的设计

(一)问题的设计

问卷中的各种问题都可以归为开放式问题和封闭式问题两种,在具体应用时需根据它们各自的优缺点进行选择。

1.开放式问题

(1)优点:可用于不知道问题答案有几种的情况。开放式问题可让回答者自由发挥,能收集到生动的资料,回答者之间的一些较细微的差异也可能反映出来,甚至得到意外的发现。另外,当一个问题有10种以上的答案时,若使用封闭式问题,回答者可能记不住那么多答案,从而难以做出选择。同时,问题和答案太长,容易使人感到厌倦,此时用开放式问题为好。

(2)缺点:开放式问题要求回答者有较高的知识水平和语言表达能力,能够正确理解题意,思考答案,并表达出来,因而适用范围有限,自填式问卷通常不用开放式问题。回答者回答此类问题需花费较多的时间和精力,加之许多人不习惯或不乐意用文字表达自己的看法,导致回答率低。对开放式问题的统计处理常常比较困难,有时甚至无法归类编码和统计,调查结果中还往往混有一些与研究无关的信息。

2.封闭式问题

(1)优点:从调查实施的难易度看,封闭式问题容易回答,节省时间,文化程度较低的回答者也能完成,回答者比较乐于接受这种方式,因而问卷的回收率较高。从测量的层次看,封闭式问题在测量级别、程度、频率等方面有独特优势,这类问题一般必须列出一系列不同等级的答案,供回答者选择。例如,“您认为您的健康状态如何?(1)很好;(2)好;(3)一般;(4)差;(5)很差”。若用开放式问题,由于回答者可能用很多不同的方式进行描述,故很难将答案归纳为统一的等级结果。对于一些敏感的问题,如经济收入等,用等级资料的方式划出若干等级,让回答者选择,往往比直接用开放式问题更能获得相对真实的回答。从资料的整理和分析方面看,封闭式问题列出答案种类,可以将不相干的回答减少到最低限度,收集到的资料略去了回答者间的某些差异,统一归为几类,便于分析和比较。

(2)缺点:某些问题的答案不易列全,回答者如果不同意问卷列出的任何答案,没有表明自己意见的可能,而调查者也无法发现。对于有些无主见或不知怎样回答的人,答案给他们提供了猜答和随便选答的机会,因此,资料有时不能反映真实情况。封闭式问题还容易发生笔误,例如本来想选答案2,结果却圈了答案3,这类错误无法区分。

3.封闭式问题和开放式问题的实际应用

问卷调查的结果简单堆积在一起是没有什么意义的,通常要通过统计分析,从中发现一些问题。鉴于开放式问题在适用范围和统计分析等方面的缺陷,目前的问卷调查多采用封闭式问题,但在少数几个答案不能包括大多数情况的提问中,问卷设计者不能肯定问题的所有答案,或者要了解一些新情况时也可用开放式问题。许多采用封闭式问题的问卷,常常在预调查时先用部分开放式问题,以确定封闭式问题的答案种类。为了保证封闭式问题包括全部答案,可以在主要答案后加上“其他”这一答案,以作为补充,避免强迫被调查者选择不真实的答案,例如:“您的职业是?(1)工人;(2)农民;(3)商人;(4)教师;(5)科技人员;(6)公务员;(7)其他(请注明)________。”

(二)问题答案格式的设计

问题答案格式在一定程度上是由问题的特性决定的。例如,“您是否参加了医疗保险?”这样的问题只能有“是”或“否”两种答案。“您为什么参加医疗保险?”就不能用“是”或“否”来回答了。一般来说,常用的答案格式有五种。

1.填空式

这种形式常用于一些事实性的能定量的问题。例如,“您家有几口人?________人。”

2.二项选择式

二项选择式在问题后给出“是”和“否”两个答案,或者两个相互排斥的答案,它测量的是统计学中所说的二分类变量,由于这种答案格式对研究者和被调查者双方而言均简便易行,故应用非常广泛。然而,值得一提的是,将一些本来比较复杂的答案简化成二项选择后,就意味着研究者人为地合并了许多虽然相关但有程度差异的答案,在调查时,被调查者之间以及被调查者与研究者之间可能对这种合并有不同的标准,还有一些人可能觉得无所适从,不知如何应答。此外,减少答案的种类后,测量的信度明显下降。

3.多项选择式

多项选择式的答案格式与二项选择式类似,只是答案的种类超过两个,可认为是若干二项选择式组合成的一种答案格式。该格式在问卷设计中应用最广,无论测量的尺度如何,在设计问卷时均可采用多项选择式的答案格式。对具有连续性特征的变量的测量也可采用多项选择式的答案设计,但在这种情况下,常常碰到这样的问题:到底设计几个答案供被调查者选择为宜?答案数量太少,信度便会下降,问卷测量的稳定度不佳;而答案数量太多,不仅造成问卷篇幅的增加,而且被调查者可能不耐烦,从而不认真答卷。根据一些研究人员的报道,答案数量为7个时,测量信度与答案数量为10个时没有太大差异,而答案数量减少到5个时,信度下降12%,当采用二项选择式答案时,信度则降低35%。故一般认为,对于用多项选择式测量的连续性变量,给出5~7个答案是比较适宜的。当然,必要时增加答案的数量也是允许的,但最多不宜超过15个。在排列答案时,对于没有顺序关系的答案,无须考虑哪个排在前面,哪个排在后面,无论怎样排列答案都行。但对于有一定顺序关系的答案,应按顺序排列,以免逻辑混乱影响选择答案。

4.图表式

有的问题答案可以用图表的方式列出,回答者在图表上表示自己的意见,常见的有脸谱、线性尺度、梯形、表格等,其中,表格与线性尺度用得最多。当要求回答者对某些问题做出多次反复的填答,如多次患病、住院等,或多个问题具有相同的答案设置时,最好将这类问题排列在一起,并且以列表的方式为宜,如此不仅可以给回答者留出回答的空间,而且可以节约问卷版面,表达也清楚明了。线性尺度的答案通常是绘出一条10cm长的刻度线,线的两个端点分别表示某项特征的两个极端情况,回答者根据自己的实际情况、看法或意见,可在线上的适当地方做标记来回答。此种方式实际上将答案视为一种连续的频谱,研究者不必想出许多词来描述答案,而且所得结果是定量资料,但是线性尺度操作起来有相当难度,回答者在确定选择哪一刻度来表示自己情况时可能有失误,而且,极少有人选择线性尺度的极端。

5.排序式

有的提问是为了了解回答者对某些事情重要性的看法,其答案是列出要考虑的有关事情,让回答者排序。例如:“您认为下列问题中哪些对社会影响最大?请按对社会影响的重要程度从1(最重要)排到5(最不重要)。________环境污染问题;________交通秩序问题;________人口问题;________治安问题;________物价问题。”近年来排序式答案的应用减少,许多问卷倾向于用多选答案,根据选择各答案人数的多少来决定事情的重要性。

(三)条目的选择与设计

1.问题和答案的编写

在问题和答案的编写过程中常出现以下错误,应注意。

(1)双重装填:指一个问题中包括了两个或以上的问题,有些回答者可能难以做出回答。

(2)含糊不清:使用了一些词意含糊不清的词,或使用了一些专业术语、俗语,从而使问题不易为人理解。有时也可能因为对问题的表述不准确或修饰语过多,使问题的意思含糊不清。

(3)抽象的提问:涉及幸福、爱、正义等一类抽象概念的提问一般较难回答。许多回答者遇到这类提问时,可能发现自己从未思考过这类问题。问卷如果一定要涉及这方面的提问,最好给出一些具体的看法,让回答者仅回答赞成与否。

(4)诱导性提问:这类提问会人为地增加某些回答的概率,从而产生偏误。带有诱导性的提问容易使无主见的回答者顺着研究者的意思回答,所以最好采用中性的提问。

(5)敏感性问题:有些问题对于回答者来说是非常敏感的,如未婚先孕、流产、同性恋、吸毒等。这类问题的设计宜慎重,否则将因回答者说谎造成偏误。有时,在肯定存在这类行为的人群中调查时,可以进行适当诱导提问,不给否定答案。

2.条目的选择

可根据以下原则选择适当的条目。

(1)在问卷调查中,对同一个特征的测量往往要使用一个以上的条目,这些条目之间应该有较好的相关性,相关系数至少应该在0.2以上,否则表明它们测量的可能是不同的特征。但这种相关性也不能太强,相关系数一般应在0.9以下,因为如果一个条目与另一个条目高度相关或完全相关,说明它们只能测量出同样的内容,增加的一个条目不能增添什么信息。当然,如果将这样一对问题作为检验信度的条目,那又另当别论。

(2)对条目用词的难度须做出限制:通常,具有初中文化程度的人应该能够很容易地独立完成问卷。要保证所有被调查者都可以正确理解问题,并做出准确的回答。

(3)不同回答者对同一问题应该有若干种不同的回答,如果90%以上的人都做出同样的回答,或某个答案几乎无人选择,则该条目意义不大。

(4)条目须具备一定的判别力:条目能够将事实上具有不同特征的人群区分开来。条目的判别力可以用判别指数来评价:

Ui:对条目做出肯定回答的人中,分数超过平均得分值(或中位数)的人数;Li:对条目做出肯定回答的人中,分数低于平均得分值(或中位数)的人数;Ni:总人数(Ui+Li)。

(四)问题的排列

当研究的各个问题合并为一张问卷时,研究者必须考虑各个问题在问卷中的排列顺序。以下几点在排列问题时可作为参考。

(1)先排列容易回答的、无威胁性的问题。如年龄、性别、职业等事实方面的问题宜放在前面。一般情况下,敏感性问题如性行为、经济收入、宗教之类,宜放在问卷的后面部分,以免引起回答者的反感,影响对后面问题的回答。

(2)先排列封闭式问题。开放式问题需要时间考虑,回答不易,如将这类问题放在前面,容易导致拒答,影响问卷的回收率。

(3)问题要按一定的逻辑顺序排列。应考虑人们的思维方式,按事物的内容和相互关系以及事情发生或发展的先后顺序排列问题。相同或相似内容和性质的问题应集中在一起,问完一类问题之后再转向另一类问题,避免跳跃性的提问。对有时间关系的系列问题,应按顺时或逆时方向提问,不要随意更换问题的次序,否则可能扰乱回答者的思维。但是,如果问卷的内容并不很复杂,或不能很明显地分为若干部分,则不用分,有时为了防止被调查者的厌倦或不加思索地随便答问,可随机地使用各类形式的问题,将不同的排列次序相结合,增加问卷的多样性。

(4)检验信度的问题须分隔开来。在很多问卷中,研究者有意设置一些高度相关或内容完全相同而形式不同的问题。这些成对出现的问题的目的是检验问卷的信度,它们不能排在一起,否则回答者很容易察觉并使回答无矛盾,达不到检验的目的。

(5)对于可能跳答的问题,要有醒目的连接语或转折语,引导回答者跳到其被要求回答的条目,以避免不必要的时间浪费和可能出现的漏答现象。

五、问卷的量化

问卷的量化是指给问卷的每一个条目或整个问卷及其各个组成领域一个恰当的评分,用以代表问题或问卷所测量的态度、信念、行为或个体特征的量度。

(一)问卷条目的量化

问卷条目的量化方法与问题答案的设置方式及其测量尺度有关。

1.测量类型

(1)定名测量也可称为类测量,就是将观察单位定性分类的测量。进行定名测量的变量一般至少存在两类,它们相互区别、相互排斥,但各类处于同一水平。这里说的相互排斥是指各个观察单位只能恰当地属于某一相适合的类别,而不能既是这类又属那类,也不能哪一类都归不进去。各个分类之间没有大小、先后之分,因而在量化时要特别注意,对于有两个以上答案的定名测量,尽管在编码时可以赋予相互区别的任意数字,但这些数字并没有数量上的意义,因此在统计分析时,只能将每一个答案均视为二分类变量,采用非参数统计方法予以分析。

(2)定序测量是将变量的各类别排出一定顺序的测量。这些类别之间也是相互区别、相互排斥的,但各类别并不是处于同一水平,而是根据其特征排出高低、上下的顺序或等级,而且每一类别都在这个排列中居有一定的位置,不能任意颠倒。可以用数字序列来反映各个等级,这些数字即代表每个答案所处的位置,但数字之间的差值不能反映答案之间的距离,只能按等级资料进行统计分析,不能作为定量资料来处理。

(3)定距测量与定比测量都属于定量测量。前者可以将变量值分类,但各类之间的距离是相等的。后者具有所有定距测量的属性,所不同的是,它有一个绝对的、固定的、非任意规定的零点。

由于定距测量和定比测量本身就是定量的,因此这类条目的答案不需要量化。定名测量的各类处于同一水平,一般不可能量化,因此,条目的量化主要发生在条目的答案为定序测量的情况下。另外一些问题的答案能分成几类,测量的也是连续性的变量,但其答案之间并不等距,如果要将其作为定量资料来处理,也需要重新量化,给答案赋予能反映答案之间真实距离的数值。

2.量化技术

(1)直接估计法。

1)视觉类比法(visual analogue scale):视觉类比法利用线性计分的原理,只给出位于线性尺度的两个端点的极端答案,要求回答者在线上选择适合其情况的答案位置,然后通过计量回答者在线上所选择的刻度距两个端点的距离,按研究者的意图,转换成一定范围内的数值。如左端点取值为0,右端点取值为1(或100),那么,线上的刻度即为0~1(或0~100)之间的数值。该法简便易行,在医药卫生领域应用很广,常用于对疼痛、情绪和能力等的测量。视觉类比法还常用于监测患者自觉病情的变化。尽管从理论上来说,视觉类比法测量的精度非常高,如用10cm的线性尺度,可以精确到1%,但是,实际上患者在选择某个刻度时,该刻度并不一定能代表其某个特征的真实量度,能够理解并完成评量尺度的人是有限的,所以,其精确度在一定程度上值得怀疑。

2)描述性量化法(adj ective scale):该法将若干个答案通过具体的描述呈现给回答者,这些答案之间有一定的顺序关系,通常按等距离计分。

例如:“总的来说,您觉得您的健康状态如何?(1)极差 (2)差 (3)一般(4)好 (5)极好。”

最常用的方法是将上述5个答案按顺序分别赋予1~5分或0~4分,如果是反向赋分,则可计为5~1分或4~0分。当然,如果是以100分赋值,则可以分别赋为0、25、50、75、100五个分值。这种量化方法很简单,但原则是各答案之间的距离相等。为保证答案等距离的真实性,需要统计学的证据。

有时可以在几个分成类别的答案之上,加上一个线性尺度,回答者仍然在线上选择答案。这种方法与视觉类比法类似,只不过除给出两个端点的答案外,还给出端点之间的几个不同答案的描述。

3)其他。根据直接估计法的基本原理,还有一些类似的量化技术,如Likert量化法,用于测量人们对研究者提出的各种问题的态度,将同意和不同意的意见分别置于一个线性尺度的两端,线的中点为“无意见”或“不知道”,如图3-2所示。这种量化不具备等距离性。

图3-2 Likert量化法示例

另一种常用的方式用于测量与某一问题相关的一系列具有双向性的特征,每一个特征均用线性尺度测量,组成一组答案(如图3-3所示)。显然,每个答案实际上相当于一个单独的问题。

图3-3 我目前所患的疾病对于我来说

另外,在一些量化的问卷中,每个问题的被择答案只有“是”或“否”两种选择,研究者应规定每个答案的记分原则。有的问题回答“是”记分,有的问题回答“否”记分。一般某个问题的选择与规定一致时记1分,不一致时不记分,也即0分。

(2)比较法。直接估计法简便易行,花费时间少,但在量化某些行为问题时却不适用。如调查影响健康的生活事件时,尽管各种生活事件有好坏之分,好坏的程度也有差异,对人们的健康会产生不同的影响,但将它们置于一个线性尺度上,或是按一定顺序排列,供被调查者选择,都是不适宜的。一则研究者的看法与被调查者的看法可能存在一定差异;二则采用循序排列后,被调查者通常只选择正向的答案,无法获得真实的量化结果。这时,可采用比较法进行量化。

1)Thurstone等间距法采用排序式答案格式对问题进行量化。首先要提出所有相关的问题,然后请被调查者按照自己的看法和意愿排序,每一个被调查者排序的顺位不尽相同,许多被调查者对同一问题排序结果的中位数即为该问题的量化得分值。

2)配对比较法与Thurstone等间距法类似,但每次只比较一对问题,之后,便可以以行乘列表的形式列出每一种选择出现的百分比,再应用正态分布的原理,将百分比值转换成标准正态分布下的Z分,例如50%的Z分为0,40%的Z分为-0.26。这样,就可以得到每一个问题在同其他问题比较的过程中,优选于其他各个问题的Z分,将这些Z分相加,计算出平均值,即得到该问题的量化值。为了避免出现负值,多数情况下,上述量化值还须再加上一个常数。

3)Guttman法常用于测量行为的问卷。首先,设计问卷时,必须提出一系列反映某一行为特征的问题,然后,精选10~20条能够反映该行为跨度范围的条目。由于研究者所提出的问题客观上已经可以比较出一个顺序,例如,从难度最大的行为至难度最小的行为,所以并不要求被调查者比较研究者设置的各个问题。被调查者只需根据自己完成每一个行为的能力如实回答问卷即可。通常,如果能够完成难度较大的行为,其他难度较小的行为亦都能够完成,可以根据能够完成的行为难度的顺位评分。这样得出的量化分并不能完全符合定距测量的要求。此外,如果被调查者完成这些行为的能力并不具备上述顺序特征(如脑血管疾病患者等),则不能用Guttman法进行量化。

(3)效用法。卫生经济学家为了进行卫生领域的成本效果评价,常常需要将各种不同的健康状态用一个数值来表示,以便开展经济学研究。这类量化技术详见第十章的相关内容。

(二)问卷及其领域的量化

多数情况下,我们除了要了解被调查者每一个问题的得分情况,还要了解由若干相关问题组成的领域或整个问卷的得分。对问卷及其领域进行量化的主要方法如下。

1.相加法

相加法指将所有问题的得分相加,作为整个问卷或领域的得分值,这种方法很常用,但并不适用于所有问卷的量化。采用相加法量化的问卷,在设计时,要特别注意问卷中每一个领域组成条目的数量,重要的领域,条目数就应该多些,以强调这一领域对整个问卷得分值的贡献。有学者认为:对于组成条目很多(如40条目以上)或条目的同源性很高的问卷,采用相加法为好,这时,如果采用权重法,测量的准确性提高得并不多,但却增加了计算的复杂性。

2.权重法

就问卷测量的态度、信念、行为和个体特征而言,每一个问题的重要程度是有差异的,这就需要给每个问题一个权重值,权重值乘以问题的量化值,然后再相加,得出全问卷或领域的量化得分值。前面介绍的许多量化技术均可用于确定权重。此外,还有两类常用的方法:统计学方法和主观定权法。

(1)因子分析法。它是统计学最常用的方法。因子分析产生的因子负荷值表示条目与量表整体内容的相关程度,它反映了条目在测量其所属领域(公共因子)时的相对重要性。因而每个领域的评分均可用该领域中所包含的条目的因子负荷值作为权重。一般情况下,为了使权重的合计值等于1,还需按比例对因子负荷值进行数学转换。

(2)主观定权法。由问卷设计人员或聘请专家根据问卷测量的内容,对问卷条目的重要性进行判断,较为重要的内容给予较高的权重值,否则给予较低的权重值。由于每个人的观点和判断的角度有异,用此法确定的权重值差异较大。为了得到相对稳定的权重值,可以进行多轮咨询,如采用管理学中常用的Delphy法。

在相加法中谈到的条目数量问题,从实质上来说仍然是权重问题,若一个领域的组成条目多于其他领域,其实就是赋予了该领域较高的权重。当我们不需要权重,但因为条目来源问题而出现上述情况时,可以用两种方法处理:一是从条目较多的领域中去除一些与其他条目高度相关的条目,以便使各领域的条目数量相等,这种方法有时行不通,我们可能找不出应该“去除”的条目;二是首先对每个领域分别用相加法予以评分,然后将领域分除以条目数量,后者再相加得全问卷的总分,这样就能够消除领域条目数量不同带来的影响。

(三)问卷评分的标准化

不同的问卷,由于其组成条目数量不同,量化方法不同,在测量同一特性时,相同的量化得分值所表示的意义就完全不同。各种问卷之间就缺乏可比性。为了解决可比性的问题,通常可以用以下方法对初评分进行转换。

1.百分位数转换

百分位数转换指将初评分转化成调查人群或代表人群得分值的百分位数值。该法简便易懂,适用于任何分布的数据转换。但是,如果调查人群或代表人群选择不当或样本量过小,则可能出现低于0分位或高于100分位的结果,显然不合理。采用百分位数转换的评分结果,使得初评分原有的差距发生改变,通常,由于集中在平均值附近的样本较多,经过百分位数转化后,其较小的差距被扩大,而位于两端的样本差距则被缩小。因此,转换分不能视为连续性的定量测量,只能采用非参数统计方法进行分析。

2.标准分(Z分)与标准化分(T分)

标准分(Z分)与标准化分(T分)主要用于正态分布或近似正态分布的数据的转换。其中,X为测量的初分,为测量初分的平均值,SD为测量初分的标准差,经过转换后的结果呈标准正态分布,其平均值为0,标准差为1。

标准分结果过于理论化,对于普通人来说往往难以理解。实际上,大多数测量的平均值并不等于0,标准差也不等于1,为此,可以将标准分进一步转换,使其分布符合研究者的期望,如智商测验,平均值为100,标准差为15。标准分经过这种转换后,称为标准化分(T分)。

T=(X'+SD'Z

其中,为研究者期望的转换分的平均值,SD'为研究者期望的转换分的标准差,Z为标准分。

3.正态化分

由于一些测量的初评分过于偏离正态分布,采用标准分往往有些不合理,此时可以先将初评分转换成百分位数值,然后利用正态分布表,将百分位数值转换成Z分或T分,这种转换分称为正态化分。

众所周知,许多特性存在着性别和年龄差异,那么,不同性别和年龄人群的初评分可能就有所不同。这时,仍然采用一个统一的代表人群进行初评分的转换就不合理,应该按各自人群的常模分别进行转换。

六、问卷的评价

问卷的质量直接影响调查结果的质量,关系到调查目的是否能够实现,因此,问卷设计完成后需要对其质量进行评价。主要评价指标包括可行性、信度、效度、敏感度等。其中,问卷的信度和效度评价尤其关键。

(一)信度

信度(reliability)又称可靠性、重复性、稳定性或精密度,用以反映相同条件下重复测定结果的一致程度。信度主要受随机因素的影响,测量结果发生的偏差往往不具有方向性。重复测定的可靠性说明的是重复测定结果彼此间的相似性,并不涉及真实值的大小,也不与真实值相比较。常用的信度指标有重测信度(test-retest reliability)、分半信度(split-half reliability)和内部一致性信度(internal consistency reliability)。

1.重测信度

重测信度是在一定时间间隔中运用同一量表对同一组被调查者进行重复测量所得的信度系数。重复测量要求对同一对象测定两次,在实施中有一定的困难。另外,被调查者的情况可能随时间发生变化,那么两次测量的差异就不单纯由随机误差造成。受前一次测定的影响,被调查者在接受第二次调查时会记忆前一次调查时填写的答案,因而第二次测定结果不一定能反映被调查者的真实情况。因此,重复测定的间隔时间不宜太长,也不宜太短,视具体研究情况而定。一些学者认为以1~2周为宜。

在实际工作中,常常通过计算组内相关系数评价重测信度的高低。组内相关系数的具体计算公式如下:

式中,MSA为组间(研究对象间)均方,MSe为组内(误差)均方,n为重复测量次数。一般认为ICC大于或等于0.75,测量结果可重复性较好。

2.分半信度

分半信度常用的方法是将调查的条目分成两半,计算这两半得分的相关系数r(又称分半信度系数),以此为标准来衡量整个量表的信度。分拆的方法很多,不同分拆方法可能得出不同的信度系数。例如,一个10条目的问卷就有126种组合方法。实际操作中,最常用的折半法是将问卷分为奇数和偶数条目的问卷。分半信度系数可以利用如下的斯皮尔曼-布朗公式求得:

式中,r为两半问卷得分的Pearson相关系数值。一般要求R大于0.7。分半信度通常只在实施一次或没有复本的情况下使用。当一个测试无法分成对等的两半时,如年龄、教育程度等事实性的问题是无法相比的,就不宜使用分半信度。

3.内部一致性信度

内部一致性信度是指用来测量同一个概念的多个计量指标的一致性程度。目前普遍使用克朗巴赫α系数(Cronbach's αcoefficient)来检验量表的内部一致性信度。Cronbach's α系数是指量表所有可能的项目划分方法所得到的折半信度系数的平均值,其计算方法为:

式中,k表示量表中条目总数,为第i题得分的方差,为总得分的方差。

值得注意的是,许多问卷测量的内容包括几个领域,宜分别对其估算α系数,否则整个问卷的内部一致性较低。由于内部一致性只需用问卷在人群中测量一次即可估算,非常简便,所以应用很广泛。一般要求问卷的α系数大于0.70。

(二)效度

效度(validity)又称真实性或准确性,用以反映测量结果与“真实值”的接近程度。例如,智商测验是否真正测量了智力的高低?生存质量量表是否真正反映了人们的生存质量?抑郁量表是否真实测量了抑郁的程度?这些都是关于测量工具效度的问题。影响效度的因素多为系统误差,偏倚具有方向性。国内目前常用的效度评价如下。

1.表面效度

表面效度(face validity)指从表面上看,问卷能否测量研究者想要了解的问题。这是一个由专家评价的主观指标。实际上,绝大多数问卷条目从形式上看都与测量目的相关,但实测结果不一定能达到预期目的。对于有的敏感性问题的调查,研究者为了得到相对真实的回答,故意采用一些表面效度不高的问题以掩盖其真正的目的,故该指标意义有限。

2.标准效度

标准效度(criteria validity)又称为效标效度,以相对准确的测量手段或指标的测量结果作为“金标准”,考察待评测量手段或指标的测量结果是否与其一致。例如,评价新的影像学诊断工具的效度,常以病理学检查结果作为“金标准”,考察两种诊断工具诊断结果的一致性。

(1)定量观察的标准效度:设用两个测量手段对n个个体进行定量观察,其中一个手段为标准手段,即“金标准”。观察结果记为成对的测量值,i=1,2, …, n。通常用两者的相关系数r来描述标准效度。

(2)定性观察的标准效度:设用两个测量手段对n个个体进行定性观察,结果为二分类或者是多分类变量,其中一个测量手段为标准方法。可通过kappa系数评价两种测量结果的一致性,从而评价新测量方法的效度。

3.内容效度

内容效度(content validity)评价测量指标的含义是否能准确反映真实情况。内容效度是一个定性评价效度的指标,它关心测量手段是否能够测量我们所需要测量的抽象概念、领域和方面。对比事先对概念的定义和最终的测量工具,可以得到关于内容效度的评价。可以采用专家评价的方法了解内容效度的大小。例如,对比生存质量的定义和用于测量的量表,可以得出该量表内容效度的大小。缺乏内容效度的测量会歪曲对所关心概念的理解,就像利用不具有代表性的样本对总体进行推断会得到错误结论一样。内容效度与表面效度一样,同属主观指标。但其评价过程要复杂得多,大致可以分为三个步骤。

第一步:详细描述研究目的与研究内容,明确问卷测量什么概念,可以分为几个领域,每个领域包括哪几方面的内容,对于测量概念而言,每个方面的内容的重要性如何。

第二步:判断问卷中的每个条目分别归属于哪个领域、哪个方面的内容。

第三步:评价问卷实际结构与第一步描述的一致性,如有无内容的缺漏、每个方面内容拥有的条目数或权重值是否与重要性相对应等。

在医药卫生界,大多数概念很难做出详细具体的描述,因此在实际工作中,只能由专家根据自己的经验,抽象地判断问卷表达内容的完整性。

4.结构效度

结构效度(construct validity)又称构想效度,指一个测验实际测到所要测量的理论结构的程度,或者指实验与理论之间的一致性,即实验是否真正测量到假设(构造)的理论。由于在心理学及社会学领域中一些概念的定义不是十分明确,内容效度在实际应用中存在困难,而标准效度往往因为缺乏比较的标准而难以应用。在这种情况下,可以使用结构效度。结构效度的评价借助因子分析来完成。具体过程:研究者根据某种理论结构设计量表,采用量表进行现场调查,对收集到的数据进行验证性因子分析,考察实际数据是否支持事先假定的理论结构,反过来也可验证研究者的假设是否成立。验证性因子分析的详细介绍可参阅相关专著或教材。