- 国家卫生和计划生育委员会全科医生培训规划教材 全科医生科研方法
- 施榕 郭爱民
- 2325字
- 2020-08-28 14:04:59
第一节 概述
卫生统计学(health statistics)是应用数理统计学的原理与方法,研究居民健康状况以及卫生服务与卫生事业管理领域中数据的收集、整理和分析的一门科学,是帮助人们分析所拥有的信息,达到去伪存真、去粗取精、正确认识世界的一种重要手段。由于本书读者对医学统计学的基本原理和基本方法在本科阶段已系统学习,故不作重点介绍,本章将通过应用实例介绍统计方法的选择、结果解释以及应用时的注意事项。
一、卫生统计工作中的基本概念
(一)总体与样本
进行一项研究,首先必须明确研究对象的总体是什么。总体(population)是根据研究目的确定的同质研究对象所有观察单位某变量值的集合。例如,欲研究某县2012年居民的血压,则观察对象是某县2012年的居民,观察单位是每个居民,变量是血压,变量值(观察值)是血压测量值,某县2012年全体居民的血压值构成一个总体。
在实际工作中,总体往往未知,通常研究的都是样本,采用样本统计量估计总体参数。样本(sample)是按照随机化原则,从总体中抽取的有代表性的部分观察单位的变量值的集合。从上面提到的总体(某县2012年的居民)随机抽取80例,他们的血压值即为样本。
(二)同质与变异
我们所研究的对象,除研究因素不同外,其他影响因素应该是一致的,这样才好体现出研究因素的效应。这里,其他影响因素的一致称为同质(homogeneity)。变量值之间的差异称为变异(variation),影响因素不同是产生变异的主要原因。统计学是处理资料中变异的科学和艺术,但是有些因素往往是难以控制的(如遗传),所以在统计学中,同质经常被理解为对研究对象影响较大的、可以控制的主要因素尽可能相同。例如,在研究儿童的身高时,要求性别、年龄、民族、地区等影响身高较大的、易控制的因素要相同,而不易控制的遗传等影响因素则用其他方法加以处理。
(三)变量的分类
统计学是处理资料中变异性的科学,变异性的存在,决定了我们要处理的是变量(variable),即总体中个体的特性。不同的变量需要用不同的统计学方法去分析,一般按变量的值是定性的还是定量的把变量分为数值变量和分类变量。
1.数值变量
数值变量(numerical variable)的变量值是定量的,表现为数值大小,可经测量取得数值,多有度量衡单位。如身高(cm)、体重(kg)、血压(mmHg、kPa)、脉搏(次/分)和白细胞计数(×10 9/L)等。这种由数值变量的测量值构成的资料称为数值变量资料,亦称为定量资料(quantitative data)。大多数的数值变量为连续型变量(continuous variable),如身高、体重、血压等;而有的数值变量的测定值只能是正整数,如脉搏、白细胞计数等,在医学统计学中把它们也视为连续型变量。
2.分类变量
分类变量(catagorical variable)的变量值是定性的,可能的“取值”不是数字,而是各个不同的水平。分类变量可分为无序分类变量和有序分类变量两类:
(1)无序分类变量:
无序分类变量(unordered categorical variable)是指所分类别或属性之间无程度和顺序的差别。它又可分为:①二分类,如性别(男、女),药物反应(阴性和阳性)等;②多项分类,如血型(O、A、B、AB),职业(工、农、商、学、兵)等。对于无序分类变量的分析,应先按类别分组,清点各组的观察单位数,编制分类变量的频数表,所得资料为无序分类资料,亦称计数资料(enumeration data)。
(2)有序分类变量:
有序分类变量(ordinal categorical variable)是指各类别之间有程度的差别的分类数据。如尿糖化验结果按-、±、+、++、+++分类;疗效按治愈、显效、好转、无效分类。对于有序分类变量,应先按等级顺序分组,再清点各组的观察单位个数,编制有序变量(各等级)的频数表,所得资料亦称为等级资料(ordinal data)。
变量的类型是可以相互转化的,变量一般由高级向低级转化:连续型→有序分类→二分类。比如高血压资料,可以从具体的数值资料转化成有序资料(重度高血压、中度高血压、轻度高血压),再转化成是否患有高血压这样的二分类资料。同时,在原始信息不损失的情况下,变量也可以反方向转化。
二、卫生统计工作的基本步骤
卫生统计工作的全过程都可分为以下四个步骤:设计(design)、收集资料(data collection)、整理资料(data sorting data)、分析资料(analysis of data)。统计工作四个步骤紧密相连、不可分割,任何一步的缺陷,都将影响整个研究结果。
统计分析包括统计描述和统计推断。统计描述中,平均数是数值变量中描述集中趋势的指标,标准差是描述离散趋势的指标。率为分类变量中最常见的描述性统计指标。统计推断又分为参数估计和假设检验两大部分,均数和率的可信区间即为最常见的参数估计方法, t检验、方差分析为数值变量最常用的假设检验方法,卡方检验为分类变量最常用的假设检验方法,见图3-1、图3-2,这些是本章中要介绍的主要内容。
图3-1 基本统计方法归纳
图3-2 假设检验方法归纳
要回答上述案例中提出的问题,可从以下几方面入手。
随机抽取某县四个乡镇,四个乡镇分别是较富裕的铅厂镇和扬眉镇,较贫穷的金坑乡和上堡乡。再从每个乡镇中分别随机抽取20例居民,组成样本含量为80的样本。从电子健康档案中查得这80例居民试验前和试验后的收缩压。
以某乡镇20例居民为例,可计算其试验前和试验后收缩压的算术平均数和标准差,根据标准差计算标准误,还可根据上述估计全县居民平均收缩压的95%可信区间,以此推断全县居民收缩压的总体水平。
利用单样本 t检验推断某乡居民收缩压与全县居民收缩压水平之间的差异,利用配对 t检验推断试验前后收缩压有无显著性变化,利用两组资料 t检验推断较富裕乡镇和较贫穷乡镇居民收缩压有无差别。利用完全随机实验设计的方差分析推断不同乡镇居民收缩压有无差别。
计算出这80例居民高血压患病率,推算高血压的标准误,并进一步推算出某县全体居民高血压患病率的95%可信区间。利用配对 χ 2检验推断试验前后某县居民高血压患病情况有无变化,利用四格表 χ 2检验推断较贫穷乡镇和较富裕乡镇居民高血压患病率有无差别,利用行×列表 χ 2检验推断不同乡镇之间居民高血压患病率有无差别。