第七节 系统评价
互联网的广泛普及,医学文献的大量发表,但作为证据的论文非常有限。什么是最可靠的证据?如何评价证据?系统评价将回答这些问题。
一、基本概念
系统评价(systematic review,SR)是循证医学(evidence-based medicine)中常用的术语,与循证医学的发展密切相关。1996年首任牛津大学循证医学中心主任David Sackett和牛津大学卫生科学研究院首任院长Muir Gray爵士在英国医学杂志上将循证医学定义为:“循证医学是有意识地、明确地、审慎地利用现有最好的证据制定关于个体患者的诊治方案”。1997年,Muir Gray爵士在《循证医疗卫生决策》一书中提出了广义的循证医学概念,循证医学是关于如何遵循科学证据进行一切医疗卫生活动的科学。至此,循证医学的总体思想框架形成。证据是循证医学的基础和核心。而系统评价和Meta分析正是循证医学重要的研究方法和最佳证据的重要来源之一。
(一) 定义
系统评价是一种研究方法,依据Cochrane协作网的定义:系统评价是指凭借清楚的格式问题,运用系统的和明确的方法对相关研究进行辨认、选择以及严格评价,对符合纳入标准的相关研究数据进行收集和分析,必要时进行定量合成的统计学处理,得出综合结论的研究过程。
系统评价又称系统综述,是对原始文献的二次研究。是在复习、分析、整理和综合针对研究问题的全部原始文献的基础上,依据一定的标准化方法进行的。“系统”和“评价”是系统评价的两个重要特点。进行系统评价时,明确的研究目的,正确的文献检索策略,确定的研究纳入、排除标准和纳入文献的质量与特征的具体描述至关重要。高质量的系统评价是目前循证医学级别最高的证据之一,被临床指南、卫生管理和医学教育等广泛应用。
(二) 系统评价的种类
Cochrane系统评价包括3类。
1.干预措施系统评价
评价卫生保健领域或卫生政策中所进行干预措施的利弊。
2.诊断准确性系统评价
评价某种疾病的检测或某种诊断方法的效果。
3.方法学系统评价
以如何开展、报告系统评价和临床试验为主题的评价。
(三) 系统评价的特点
系统评价具有如下特点:①一次系统评价常集中于对一个主题的研究。②系统评价要求多途径、多渠道、最大限度地收集相关文献,保证了系统综述质量。③明确、系统的检索策略,能全面地收集符合纳入与排除标准的研究。④研究方法科学、可重复。⑤结果合成客观,并可定期更新。
系统评价能够全面、系统地收集、筛选资料,严格评价纳入研究的内部与外部真实性,定性与定量分析结合,系统、透明的研究方法是从海量信息中提炼和总结真实科学的证据。系统评价方法不仅可以寻找出最佳证据,其严谨科学的筛选过程也是鉴定重复发表、剽窃、选择性报告研究等学术不端行为的有效方法。
(四) 与Meta分析的关系
两者都是公认的二次研究方法。系统评价是运用定性或定量描述方法的二次研究;而Meta分析是应用特定的统计方法定量地进行统计分析的二次研究。
(五) 系统评价在循证医学中的作用
循证医学是最好的研究证据与临床医师的技能、经验和患者的期望、价值观三者之间的完美结合。系统评价是循证决策与实践的重要证据来源;是临床实践、医学教育、知证决策的证据基础;同时是促进证据转化、连接研究与实践的重要纽带。
二、研究设计主要内容
系统评价的过程包括下列主要内容。
(一) 选题
“提出一个好的问题”是进行系统评价的良好的开端。正确的选题是最基本、最重要的一步。选题就是研究者想研究或准备解决的问题。如:某一疾病尚未解决的病因、发病机制、诊断、治疗、预防等各个方面的问题等。选题和立题的过程就是建立假说的过程,假说是根据已知的科学实践和科学理论,对准备研究的课题提出一种假定的解释。假说来源于已有的事实材料,以一定的科学理论为依据;不是随意的幻想和毫无根据的猜测。但是科学理论不是绝对的真理。
选题应遵循科学研究中的创新性、科学性、先进性、可行性、实用性原则。
(二) 拟定研究方案
与其他的研究类型一样,系统评价的制作应先拟定一个详细的研究方案。包括研究目的、背景、假设检验、确定要选择的研究方法、文献纳入及排除标准、信息提取和分析的详细方法等。
1.确定研究目的
在研究背景下,对研究目的提出假设检验。
2.确定文献的纳入、排除标准
即确定此次研究的研究类型、研究对象、暴露与干预措施、研究结局等。
(1) 研究类型:
研究类型的选择指根据具体研究目的,选择可以解决问题的研究类型(观察性研究、随机对照试验)。
(2) 研究对象:
确定研究对象时应考虑所研究疾病的定义、诊断标准;研究对象的人口学特征(年龄、性别、种族等);研究场所(医院、社区)。
(3) 干预措施:
干预措施应具体说明干预措施的类型及具体实施过程,包括具体的干预内容、干预强度、频率、实施者、实施途径等;以及干预措施的变化。
(4) 研究结局:
结局指标有主要结局指标和次要结局指标。主要结局指标为用来帮助决策临床终点的重要指标,如:生存率(死亡率)、不良事件、经济结局等;可以是客观数据,也可是主观数据。未被确定为主要结局指标的其他指标为次要结局指标,一般是中间指标。同时,应确立结局指标的测量方式及测量时间。
3.制定信息摘录表
以结构化方式将每篇入选的文献依据摘录表收集相关信息。
(三) 制定检索策略与查找文献
检索策略应尽可能全面、系统。根据研究目的,明确将要研究的相关文献来源、时间范围、语种等。查找文献要求多渠道、最大限度地全面收集文献。如利用多种电子资源数据库、手工检索、参考文献追溯等方式;同时还要注意未正式发表的“灰色文献”。
(四) 根据入选标准选择合适研究文献
根据在研究计划阶段确定的纳入与排除标准,对收集到的每篇文献进行严格筛选,筛选出符合研究目的与要求的合格文献。选择标准应根据确立的研究问题及构成研究问题的四要素即研究对象、干预措施、主要研究结果和研究的设计方案而制定。
文献资料的选择应分三步进行。
1.初筛
根据检索出的引文信息如题目和摘要筛除明显不合格的文献,对肯定或不能肯定的文献应查出全文再进行筛选。
2.阅读全文
对可能合格的文献资料,应逐一阅读和分析,以确定是否合格。
3.与作者联系
一旦被排除的文献将不再录用,因此,因文中提供的信息不全面而不能确定,或者有疑问和有分歧的文献应先纳入,通过与作者联系获得有关信息后再决定取舍或在以后的选择过程中进一步评价。
(五) 评估纳入研究的偏倚风险
即对纳入研究的方法学进行质量评估。对每一项研究的质量进行评估一般包括以下三个方面。
1.方法学质量评估
着眼于研究设计的合理性、实施过程中的质量控制;
2.精确度评估
一般从统计指标可信区间的宽度来衡量;
3.外部真实性评估
指研究结果的外推程度。
目前,对于随机对照试验(randomized controlled trial,RCT)的方法学质量的评估依据Jadad的评分细则进行。Jadad的评分采用五分制:1~2分为低质量;3~5分为高质量。具体细则见表2-15。
表2-15 RCT质量的Jadad评分
(六) 提取信息,建立数据库
按照事先制定的信息摘录表,提取每项研究的相应信息。包括研究的一般信息和研究信息两个部分。
1.一般资料
如评价的题目、评价者的姓名、原始文献编号和来源、评价的日期等;
2.研究特征
如研究的合格性、研究对象的特征和研究地点、文献的设计方案和质量、研究措施的具体内容和实施方法、有关偏倚防止措施、主要的试验结果等;
3.结果测量
如随访时间、失访和退出情况、分类资料应收集每组总人数及各种事件发生率、连续资料应收集每组研究人数、均数和标准差或标准误等。
采用SPSS、SAS等统计软件建立数据库。在提取和录入时采用双人独立完成,并进行比对,以保证资料的准确性。
(七) 数据分析 1.计算各独立研究的效应大小
一般来说,组间比较时,连续变量用平均差值;分类变量用率差、比值比、相对危险度等表示效应的大小。
2.异质性检验
临床研究中,针对同一选题的研究完全可能出现不同的结果,各项研究时间也会存在差别,试验的具体操作过程等也会有差异,这些都是异质性的来源。Meta分析中异质性分为:临床异质性、方法学异质性和统计学异质性。临床异质性是指研究对象、干预措施、结局事件等定义不同所造成的变异。方法学异质性是指在试验设计和质量控制方面的差异所致的差异,如盲法、对照的使用、结局测量方法等不同。统计学异质性是指不同研究间治疗效应的差异。
异质性检验又称为齐性检验,是检验各项独立研究的结果是否同质,是否可以合并的检验方法。若异质性检验结果为 P>0.10时,可认为多个独立研究具有同质性,可使用固定效应模型进行分析;当异质性检验结果为 P≤0.10时,一般认为各项研究间存在异质性。此时应分析导致异质性的原因。若合并资料仍有临床意义,可采用随机效应模型进行分析。
3.敏感性分析
用于评估系统评价、Meta分析结果是否稳定、可靠的分析方法。指改变研究因素中可以影响结局的重要因素,如纳入与排除标准、是否为“灰色文献”等,观察研究结果和同质性是否改变,从而判断结果的稳定性。研究者采用以下几个方面进行敏感性分析:①按不同的研究特征,如统计学方法、研究质量的高低、样本量大小等,对纳入文献进行分层Meta分析,再比较分层后各组及其与合并效应间有无显著性差异;②采用不同的统计学方法(不同模型)重新计算合并效应值并比较;③排除质量相对差或设计不太严格的文献后重新进行Meta分析,比较前后合并效应值是否存在异质性;④改变研究的纳入、排除标准、干预措施后重新计算合并效应值并比较;⑤对缺失数据进行合理的估计后重新分析数据。如敏感性分析改变了结果,做结论时需要谨慎考虑。
(八) 总结报告
结果是系统评价的重要组成部分。应包括:纳入研究及其基本特征、纳入研究的偏倚风险评估、各原始研究结果及其他等。
结果解释,指作者对系统评价的结果进行解释说明,即系统评价过程中进行讨论、得出结论的过程。在解释系统评价时,必须基于研究的结果,内容应包括:①系统评价的论证强度:取决于纳入研究的设计方案和每个研究的质量、是否存在重要的方法学局限、合成结果的效应值大小和方向、是否存在剂量-效应关系等;②推广应用性:在确定系统评价结果的应用价值时,首先应考虑干预措施对患者的利弊关系,其次应考虑纳入系统评价的研究,其研究对象是否与你的患者情况相似?是否存在生物学和社会文化背景、依从性、基础危险度、病情等方面的差异;③对干预措施的利弊和费用进行卫生经济分析;④对医疗和研究的意义:系统评价的结果对临床医师和卫生决策者的实用价值、对今后研究的指导意义,目的在于帮助医务工作者和决策者进行正确的选择和应用、为进一步的研究导向。
(九) 偏倚及其控制
由于系统评价是文献的二次研究,不仅不能排除原始研究中存在的偏倚,甚至在文献查找和选择过程中,若处理不当,会引入新的偏倚(图2-3)。
图2-3 系统评价各阶段的信息收集流程图
1.发表偏倚
发表偏倚(publication bias)是指阳性的研究结果较阴性的研究结果更容易被报道或发表。如果系统评价只选择已经发表的研究结果和部分数据库的结果,得出的结果可能是虚假或错误的。目前控制此偏倚的方法有:多渠道、尽可能全面地收集研究主题的相关文献包括未发表的研究。解决发表偏倚的根本途径:先行将所有的RCT进行登记,再根据登记系统随访并获得所有研究结果。此外,还可通过敏感性分析、漏斗图分析、失安全数的计算等统计学方法估计偏倚的大小。
2.定位偏倚
结果为阳性的研究更容易以英文发表在国际性杂志上,被引用的次数就会相对多,重复发表的次数可能性越大,由此造成的偏倚为定位偏倚。有英语偏倚、文库偏倚。
3.引用偏倚
知名度高的杂志、阳性的结果有更多的机会被引用,由此产生偏倚成为引用偏倚。
三、Meta分析
Meta分析(Meta analysis)的前身源于Fisher 1920年“合并 P值”的思想,1955年由Beecher首次提出初步的概念,1976年英国教育心理学家Glass按照其思想发展为“合并统计量”,并首次命名Meta分析。目前,Meta分析已在教育学、心理学、社会科学、生物医学等领域得到越来越广泛的应用,从某种意义上说,Meta分析是对现有信息的最优利用。随着我国医学研究文献质量的提高,Meta分析已在循证医学和循证卫生管理中发挥越来越重要的作用。
(一) Meta分析概述
在世界范围内,对同一研究目的或项目可能有几个、几十个、甚至上百个学者在不同地区进行研究并报告结果,但各学者在研究设计、对象选择、样本含量、指标选择、统计方法等方面不完全相同,导致研究结果并不完全一致,对这些结果进行综合评价和取舍是比较困难的,而Meta分析正是对这些结果进行定量综合的适宜统计方法。
1.Meta分析的定义
1976年英国教育心理学家George Glass给Meta分析的定义是:Meta分析是以综合研究结果为目的而对不同研究结果进行收集、合并及统计分析的一种方法;1987年Sack的定义是:Meta分析是对先前研究结果进行统计合并和评述的一种新方法;1988年Hedge的定义是:Meta分析是用以汇总众多研究结果的各种定量分析。
Meta分析实质上就是汇总相同研究目的的多个研究结果并分析评价其合并效应量的一系列过程,即通过综合多个研究结果而提供一个量化的平均效果或联系来回答问题。Meta分析是对具有相同目的且相互独立的多个研究结果进行系统的综合评价和定量分析的一种研究方法。
2.Meta分析的目的与用途
在生物医学领域中应用Meta分析主要解决以下问题:病因学研究中因果联系的强度与特异性;各种干预措施效果的程度、特异性以及卫生经济学问题;卫生策略的效果评价。Meta分析可达到下列目的:
(1) 提高统计学检验效能:
在进行假设检验时,能否得到“有统计学意义”的结果与样本含量存在一定关系,Meta分析是对多个同类研究结果进行综合,总样本量增大,因而可改进和提高统计检验的效能。
(2) 解决单个研究间的矛盾,评价结果的一致性:
由于各种研究在设计、对象选择、样本含量、试验条件等方面不同,其研究结果的质量存在很大差异,一般综述方法很难对研究结论进行合理取舍,而Meta分析可以估计各个研究可能存在的偏倚以及异质性的来源,采用统计方法对各个研究结果进行定量综合评价。
(3) 定量估计效应量的平均水平:
多个同类研究的结果可能在程度和方向上存在差异,有时甚至得到相互矛盾的研究结论。用Meta分析的综合结果可以估计各个研究效应量的平均水平,从而可得到一个供选择的明确结论。
(4) 解决既往单个研究未明确的新问题:
Meta分析可以探讨单个研究未阐明的某些问题,发现既往研究存在的缺陷,继而提出新的研究问题和研究思路。
3.Meta分析的偏倚
Meta分析中可能存在使结果与实际之间产生差异的各种偏倚,因此,偏倚的识别和控制对Meta分析结果的真实性和可靠性是非常重要的。在Meta分析中可能出现的偏倚主要包括抽样偏倚(sampling bias)、选择偏倚(selection bias)和研究内偏倚(within study bias)。
(二) Meta分析的步骤与方法
Meta分析本质上是一种观察性研究,其研究基本步骤包括提出所需要解决问题,制定Meta分析方案,检索相关文献,收集、整理研究资料,筛选文献,剔除不满足要求的文献,评价文献质量,进行异质性检验,数据统计分析,对分析结果进行解释并给出报告。一份完整的Meta分析报告,应至少包括提出问题、收集和分析数据、报告结果等几个部分。
1.提出问题,制订研究计划
通过系统复习大量文献提出需要解决的问题,Meta分析所研究和需要解决的问题一般来自生物医学研究领域中不确定或有争议的问题。与其他科学研究一样,Meta分析课题的研究计划包括研究目的、现状、意义、方法、数据收集与分析、结果解释、报告撰写等。
2.检索相关文献
一般从研究问题入手,确定相应的检索词及其之间的搭配关系,制定检索策略和检索范围。可供计算机检索的医学数据库有Medline、中国生物医学文献数据库、Cochrane图书馆以及其他数据库。对检索结果要进行查全、查准与否的分析评价,这是至关重要的,否则会影响Meta分析结论的可靠性和真实性。
3.筛选纳入文献
以明确的纳入和剔除标准从检索出的文献中筛选合乎要求的文献。在制定文献纳入和剔除标准时,要考虑研究对象、设计类型、处理因素、结局效应、样本大小、观察年限、文献发表时间和语种等方面的问题。
4.提取纳入文献的数据信息
被Meta分析采用的数据信息一般包括基本信息、研究特征、结果测量等内容,确定和选择需要分析和评价的效应变量。
5.纳入文献的质量评价
主要考察各个研究之间是否存在差异及其影响程度。质量高低可用权重来表示,也可用量表或评分系统来评价。
6.数据的统计学处理
主要包括:明确资料类型、选择恰当的效应指标;进行同质性检验、选择适合的统计分析模型;效应合并值的参数估计与假设检验;效应合并值参数估计的图示。
Meta分析的统计方法包括固定效应模型(fixed effect model)和随机效应模型(random effect model)。固定效应模型假设各独立研究是来自同一总体的样本,各研究的效应值只是总体参数的一次实现;各研究间的差异只由抽样误差引起,不同研究间的变异很小;一项个体研究内部的方差与另一项个体研究内部的方差相等(方差齐性)。随机效应模型假定各研究来自不同的总体;各研究间的变异较大,既包括各个研究内部的方差,也包括各个体研究间的方差;每个研究有其相应的总体参数,Meta分析的合并效应值是多个不同总体参数的加权平均。
在选择Meta分析的统计模型时,首先要对各研究作同质性检验(homogeneity test),若检验结果不拒绝零假设,即各研究间的差异没有统计学意义,可采用固定效应模型,其主要统计方法包括Mantel-Haenszel法、Peto法和General Variance-Based法;若拒绝零假设,则认为研究间存在异质性,应采用随机效应模型,其统计方法主要是DerSimonian and Laird法。
常用Meta分析的模型选择及方法见表2-16。
表2-16 常用Meta分析的模型选择及统计方法
*要求近似服从正态分布
若采用RevMan软件进行统计分析,对于二分类(计数)资料, k个独立的同类研究结果收集整理如表2-17;对于数值变量(计量)资料, k个独立的同类研究结果收集整理如表2-18。
表2-17 k个独立研究的二分类资料整理表
表2-18 k个独立研究的数值变量资料整理表
7.敏感性分析
目的是了解Meta分析结论的稳定性。主要通过以下方法来考察Meta分析结论有无较大变化:
(1) 选择不同统计模型时,效应合并值点估计和区间估计的差异。
(2) 剔除质量较差的文献前后,结论的差异。
(3) 对文献进行分层前后,结论的差异。
(4) 改变纳入和剔除标准前后,结论的差异。
8.结果的分析与讨论
包括异质性及其对效应合并值的影响;几种设计类型的亚组分析;各种差异的识别与控制;Meta分析结果的实际意义。