Skip to content

Latest commit

 

History

History
725 lines (463 loc) · 56.9 KB

meta analysis.md

File metadata and controls

725 lines (463 loc) · 56.9 KB

Introduction

荟萃分析是指对一系列研究结果的统计综合。

虽然荟萃分析中使用的统计过程可以应用于任何一组数据,但只有在系统收集了这些数据之后,综合统计就变得十分有意义。这可以是在系统审查的背景下进行的,即系统地定位、评估、然后综合大量来源的数据的过程。或者,它可以是在从一组选定的研究中综合数据的情况下进行的,例如由制药公司进行的评估新药疗效的研究。

如果治疗effect(或effect size)在一系列研究中是一致的,该过程使我们能够认定药物在抽样人群中的effect是稳定的,并且比我们单独使用任何一组数据更精确地估计effect的大小。如果治疗effect在一系列研究中有所不同,这种统计方法使我们能够给出误差的影响范围,并可能使我们能够确定与effect size相关的因素。

*FROM NARRATIVE REVIEWS TO SYSTEMATIC REVIEWS(从叙述性综述到系统性综述)*

在20世纪90年代之前,综合多项研究数据的任务主要是叙述性综述的权限。某一特定领域的专家会阅读针对某一问题的研究,总结研究结果,然后得出结论——例如,所讨论的治疗是否有效。

然而,这种方法有一些重要的局限性。

一个限制是这种方法固有的主观性,加上缺乏透明度。例如,不同的评审员可能会使用不同的标准来决定哪些研究要包括在评审中。一旦选择了一组研究,一个评审员可能会对更大的研究给予更多的信任,而另一个评审员则会对“质量”研究给予更多的信任,还有一个评审员会对所有研究分配一个可比的权重。一位评审员可能需要大量的证据才能得出治疗有效的结论,而另一位评审员则使用较低的阈值。

事实上,文献中有这样的例子:两篇叙述性综述得出相反的结论,一篇报道一种治疗有效,而另一篇报道无效。作为一项规则,叙述性综述者不会清楚地(甚至可能不完全了解)用于综合数据和得出结论的决策过程

叙述性综述的第二个限制是,当信息与材料的自由度变高时,它们的可信度会变低。综合所需的思维过程要求评审员捕捉每项研究中报告的发现,为该发现分配适当的权重,然后在研究中综合这些发现。虽然一个评论者可能能够在头脑中综合一些研究的数据,但随着研究数据数量的增加,这个过程变得困难,最终难以维持。这是真实的,即使两项对同一个问题的研究表明治疗effect(或effect size)是一致的。更为不幸的是,通常情况下,治疗effect会随着研究水平的协变量而变化,如患者群体、药物剂量、结果变量和其他因素。在这些情况下,一个恰当的综合要求研究者能够理解治疗effect如何随着这些变量的变化而变化,而叙述性综述对于解决这类问题的能力很差

*THE SYSTEMATIC REVIEW AND META-ANALYSIS*

基于这些原因,从20世纪80年代中期开始,并在90年代生根发芽,许多领域的研究者开始从叙事性评论转向系统性综述和荟萃分析(meta分析)。

对于系统回顾,使用一套明确的规则来搜索研究,然后确定哪些研究将被纳入或排除在分析之外。由于在制定这些标准以及从荟萃分析得出的结论时存在主观性因素,我们不能说系统性审查是完全客观的。然而,由于所有的决定都有明确的规定,机制是透明的。

大多数系统性综述的一个关键因素是数据的统计综合,或荟萃分析。与叙述性评价不同的是,在叙述性评价中,评价者会对每项研究隐含一定程度的重要性,在荟萃分析中,分配给每项研究的权重是基于事先规定的数学标准。虽然评论者和读者在结果的实质意义上可能仍有分歧(正如他们可能对一项初步研究那样),但统计分析为这一讨论提供了一个透明、客观和可复制的框架。

荟萃分析中使用的公式是初步研究中使用的公式的扩展,用于解决与初步研究中解决的问题类似的问题。在初步研究中,我们通常会报告受试者的平均值和标准差。如果合适的话,我们也可以使用方差分析或多元回归来确定受试者得分是否(以及如何)与各种因素相关。同样,在荟萃分析中,我们可能会报告治疗effect的平均值和标准差。如果合适的话,我们也会使用类似于方差分析或多元回归的方法来评估效应和研究水平协变量之间的关系。

进行荟萃分析有多种原因,不仅是为了综合干预effect的证据,也为了支持基于证据的政策或实践。荟萃分析的目的,或者更一般地说,任何研究综合的目的都会影响到什么时候应该进行荟萃分析,应该使用什么模型来分析数据,应该进行什么样的敏感性分析,以及应该如何解释结果。忽视meta分析是一种具有多种应用的工具这一事实会导致混淆,并导致在没有单一正确方法的情况下,关于什么是执行研究综合的正确方法的无意义讨论。这完全取决于合成的目的和可用的数据。这本书的大部分内容都将对这一观点进行扩展。

*META-ANALYSIS AS PART OF THE RESEARCH PROCESS*

如上文引用的医学,社会科学,商业,生态学和其他领域的示例所示,系统性综述和荟萃分析用于综合给定问题的可用证据,从而为政策提供依据。 虽然这可能是该方法的最常见用法,但荟萃分析在研究过程的其他部分也可以发挥重要作用。

系统性综述和荟萃分析可以在设计新研究中发挥作用。

首先,他们可以帮助确定是否有必要进行计划的研究。

通过综合先前研究的数据可能会找到此次实验所需的数据信息,在这种情况下,不应进行研究。 艾恩·查默斯(Iain Chalmers,2007)在一篇题为《未能充分利用有关医疗effect的相关证据的致命后果:需要系统性综述》的文章中指出了这一点。

其次,如果需要进行新研究,荟萃分析可以帮助设计更为方便节约的研究计划和研究目标。 例如,荟萃分析可能表明,在先前的研究中,一种结果指标已被证明比其他结果更敏感,或者一种特定的给药方式已被证明比其他方法更有效,因此在研究计划中也应将这些指标作为实验结果之一考虑。基于以上的原因,各国卫生机构在内的各种政府机构一直在鼓励(或要求)研究人员在进行新的资助研究之前,对现有研究进行荟萃分析。

系统性综述还可以在任何新的基础研究的发表中发挥作用。 在出版物的介绍部分中,系统的综述可以通过描述我们以前知道的以及希望从新研究中学到的知识来帮助将新研究置于背景中。 在出版物的讨论部分,系统评论使我们不仅可以梳理一项新研究所提供的大量研究数据,还可以理解这些数据(或者说证据)在这项研究中到底意味着什么。 艾恩·查默斯(Iain Chalmers)和迈克尔·克拉克(Michael Clarke)(1998)将此方法视为避免无背景报道研究的一种方法,他们将其称为“寻找大陆的岛屿”。 与通常用于此目的的叙述性综述相比,荟萃分析将以更加严格和透明的方式提供这种环境

*THE INTENDED AUDIENCE FOR THIS BOOK*

由于荟萃分析是一个相对较新的领域,因此许多人,包括那些在工作中实际使用荟萃分析的人,都没有机会系统地了解它。 我们希望本卷将提供一个框架,使他们能够了解荟萃分析的逻辑,以及如何正确应用和解释荟萃分析程序。

前言xxv这本书面向研究人员,临床医生和统计学家。 我们的方法主要是概念性的。 读者将能够跳过这些公式,并且仍然可以理解例如固定效应分析和随机效应分析之间的差异,以及用于评估研究之间effect差异的机制。

这本书可以用作荟萃分析课程的基础。 补充材料和练习已发布在该书的网站上。

该书适用于医学,流行病学,社会科学,商业,生态等各个领域的读者。 尽管我们已经包括了许多这些学科的示例,但更重要的信息是,在这些领域中的任何一个领域可能已经开发出的荟萃分析方法都适用于所有这些领域。

由于我们使用这些示例的目的是解释荟萃分析本身,而不是解决实质性问题,因此,我们仅提供为此目的所需的信息。 例如,我们可能会提供一项分析,表明某种疗法可减轻疼痛,而忽略其他分析,表明同一疗法可增加不良事件的风险。 因此,对示例中涉及的实质性问题感兴趣的任何读者都不应出于此目的而依赖本书。

*CHAPTER 1*

*HOW A META-ANALYSIS WORKS*

image-20210510131331178

图1.1说明了一项荟萃分析,显示了高剂量他汀类药物与标准剂量他汀类药物在预防死亡和心肌梗塞(MI)方面的影响。 此分析改编自Cannon等人的报告。 并发表在《美国心脏病学会杂志》(2006年)上。

我们在此处提出此目标的目的是在荟萃分析中引入各种要素(每个研究的效应量,分配给每个效应量的权重,summary effect的估计等),并显示每个量身定做的位置 更大的方案。 在随后的章节中,将详细探讨这些元素中的每一个。

*INDIVIDUAL STUDIES*

图中的前四行代表四个研究对象。对于每个研究对象,我们将对象名称置于左侧,后面是effect size(图中是风险概率(risk ratio))、在整体研究中所对应的相对权重(用于计算summary effect)和p值。effect size和权重的对应关系(置信区间)也显示在了示意图中。

*Effect size*

Effect size是元分析中的基础计量单位,它反映了治疗效应的大小或(更一般地)两个变量之间关系的强度。我们计算每个研究的effect size,然后使用effect size来评估两个研究对象(比如某个研究对象对另一个研究对象的effect)效应的一致性,并计算summary effect

effect size可以表示干预的影响,例如医疗对感染风险的影响,教学方法对测试分数的影响,或者新方案对成功返回上游的鲑鱼数量的影响。Effect size的大小度量不仅限于干预措施的影响,还可以表示两个变量之间的任何关系,例如男性与女性的测试分数差异,暴露于或未暴露于二手烟的人的癌症发病率差异,或者两种不同性格的人心脏事件的差异。事实上,我们通常所说的effect size可以简单地指单个值的估计,例如莱姆病的流行率。

在这个例子中,effect size是风险比率。风险比为1.0意味着两组的死亡或心肌梗死风险相同,而风险比小于1.0意味着高剂量组的风险较低,风险比大于1.0意味着标准剂量组的风险较低。

每个研究的effect size由一个正方形表示,正方形的位置表示effect的方向和大小。在这里,每项研究的effect size落在中心的左边(表明高剂量组有好处)。在TNT研究中effect最强(离中心最远),而在理想研究中effect最弱。

注意:对于基于比率的effect size度量(如本例中所示),比率1.0(表示各组以数据所表示的结果之间的比值)表示各组之间没有差异。对于基于差异(如平均差异)的effect size度量,0.0(表示各组以数据表示的结果之间的差值)的差异表示组间没有差异

Precision*(精度)*

在示意图中,每个研究的effect size以置信区间为界,反映了在该研究中估计effect size的精度。最后一项研究(ideal)的置信区间明显小于第一项研究(prove-it),这反映了理想研究具有更高的精确度。第八章讨论了精度的含义和影响精度的因素。

*Study weights*

用于描述每个研究的实心正方形的大小各不相同,每个正方形的大小反映了我们计算summary effect时分配给相应研究的权重。TNT和Ideal研究的权重相对较高,而A-to-Z研究的权重略低,而Prove-it研究的权重更低。

正如人们所期望的,一项研究的精确性与否和该研究在分析中的权重大小之间存在一定的关系。精度相对较好的研究(TNT和Ideal)会被赋予更多的权重,而精度相对较差的研究(Prove-it)会被赋予更少的权重。由于精密度主要由样本量决定,我们可以认为研究是由样本量加权的。

然而,虽然精度是用于决定分配权重大小的因素之一,但通常也有其他因素存在。在第三部分中,我们讨论了不同的假设,人们可以作出关于effect size分布的研究,以及这些如何影响分配给每个研究的权重大小

*p-value*

对于每一项研究,我们都会显示空值测试(test of null)的p值。p值和置信区间之间存在必要的对应关系,因此当且仅当95%的置信区间不包括空值时,p值才会降到0.05以下。因此,通过检查置信区间,我们可以很容易地确定具有统计学意义的研究。第32章讨论了p值在分析中的作用,以及p值和effect size之间的关系。

在本例中,四项研究中有三项的置信区间与空值交叉,p值大于0.05。在一项(TNT研究)中,置信区间不超过零,p值低于0.05

*THE SUMMRAY EFFECT*

合成的一个目标通常是计算summary effect。通常我们会报告effect大小本身,以及精度和p值的度量。

*Effect size*

在绘图上,summary effect显示在底线上。在本例中,总风险比为0.85,表明接受高剂量治疗的患者的死亡(或心肌梗死)风险比接受标准剂量治疗的患者低15%。

summary effect只不过是个体效应的加权平均数。然而,用于分配权重大小的机制(这决定了summary effect的意义)取决于我们对研究样本中effect size分布的假设。在固定效应模型(fix-effect model)下,我们假设分析中的所有研究共享相同的真实(true)effect size,从而在这个模型的假设下,summary effect的大小是我们对这个共同effect size的估计。在随机效应模型下,我们假设真实effect size因研究而异,同上,在这里的summary effect是我们对effect size分布平均值的估计。这将在第3部分中讨论

*precision*

summary effect以菱形表示。菱形所处位置对应的数值代表了effect size,而宽度则反映了估计的精度。在这个例子中,菱形的中心位于0.85处,并且从0.79延伸到0.92,这意味着高剂量的实际影响(与标准剂量相比)可能落在这个范围的某个地方。

精度将summary effect的准确性作为真实effect的估计。然而,正如第3部分所讨论的,精度的确切含义取决于统计模型

*p-value*

summary effect的p值为0.00003。该p值既反映了summary effect size的大小,也反映了估算该效应所依据的信息量。请注意,summary effect的p值比任何单一研究的p值更具说服力。事实上,四项研究中只有一项p值低于0.05。第32章讨论了p值和summary effect之间的关系

HETEROGENEITY OF EFFECT SIZES*(效应值的异质性)*

在本例中,治疗effect在所有研究中都是一致的(根据第16章中解释的标准),但情况并非总是如此。本卷的一个关键主题是评估不同研究中summary effect的分布情况的重要性,然后在解释数据时考虑到这一点。如果summary effect是一致(分布具有统计学意义)的,那么我们通常将重点放在summary effect上,并且我们可以认为这样的summary effect是稳定的(可作为实验结果报告的)。此外,如果summary effect变化不大,那么我们可能仍然会报告summary effect,但请注意,任何给定研究中的真实效应(true effect)可能略低于或高于该值。而如果这项研究的summary effect与其他类似研究的summary effect有较大差异,我们的注意力将从summary effect转移到分散效应(dispersion effect)。

因为研究所得到的effect size之间的误差有一部分是不可避免的(误差包括研究中的真实差异(系统误差)和随机误差),因此在试图解释效应中的变化之前,我们需要确定观察到的变化的哪一部分(如果有的话)是真实的。在第4部分中,我们将展示如何将观察到的方差划分为由于误差引起的部分和表示真实effect大小变化的部分,然后以各种方式使用这些信息。

在这个例子中,我们的目标是估计单一人群的summary effect。

然而,在某些情况下,我们需要比较一个研究分组与另一个研究分组的summary effect(例如,使用老年人群的研究与使用相对年轻人群的研究)。在其他情况下,我们可能需要评估假定的调节因子(或协变量)对summary effect的影响(例如,在使用10、20、40、80、160毫克剂量的研究中比较summary effect)。

第4部分还讨论了这些类型的分析。

本章概要

1.为了进行荟萃分析,我们计算每个研究的effect size和方差,然后计算这些effect size的加权平均数。

2.为了计算加权平均数,我们通常给更精确的研究分配更多的权重,但分配权重的规则取决于我们对真实效应分布的假设

*CHAPTER 2*

*WHY PERFORM A META-ANALYSIS*

*INTRODUCTION*

为什么要进行荟萃分析?使用统计方法来综合数据,而不是把每项研究报告的结果拿出来,然后由专家整理和综合,有什么好处?

在这一章中,我们从我们已经选择了要包含在综述中的研究开始,并且正在计划综合本身。在定位和选择研究的过程中,我们不讨论系统综述和叙述性文献综述之间的差异。这些差异可能非常重要,但(一如既往)我们的重点是数据分析,而不是整个审查过程。

综述的目的是在所有其他同类(或有关的)研究的基础上理解整个研究的结果。首先,我们需要知道effect size在整个数据体中是否一致。如果它是一致的,那么我们希望尽可能准确地估计effect size,并认为该effect在包含综述所进行的整一类研究中都是是稳定可靠的。另一方面,如果不同研究之间的差异很大,我们需要量化差异的程度并考虑其影响。

荟萃分析能够解决这些问题,而叙述性文献综述则不然。

我们先用一个例子来说明荟萃分析和叙述性文献综述如何处理同一个问题,然后用这个例子来突出两者之间的关键区别。

THE STREPTOKINASE META-ANALYSIS*(链激酶META分析)*

从1959年开始到1988年(将近30年的时间跨度),共有33个随机试验用于评估链激酶预防心脏病发作后死亡的能力。(链激酶,一种所谓的血凝块阻滞剂,静脉注射该激酶被认为能溶解引起心脏病发作的血凝块,从而增加存活的可能性)。这些试验都遵循类似的方案,患者随机分为治疗组和安慰剂组。结果,无论病人是否死亡,在所有的研究中都是一样的。

试验的规模各不相同。样本量的中位数略高于100,但有一项试验的样本量在20名患者的范围内,还有两项大规模试验分别招收了12000名和17000名患者。

在33项研究中,有6项具有统计学意义,而其他27项则没有,这导致人们认为这些研究产生了相互矛盾的结果。

1992年,Lau等人发表了一篇综合了33项研究结果的meta分析。下面的陈述是基于Lau论文的(尽管我们使用了风险比(risk ratio),其中Lau使用了优势比(odds ratio或称优势比))。

image-20210510131351661

在图中,中心左侧的effect size表明链激酶组存活率更高;而在中心右侧的effect size表明对照组存活率更高

这幅图突出了以下几点。

1.不同研究的effect size相当一致。大多数落在0.50到0.90的范围内,这表明通过加权方法计算summary effect是合适的。

2.summary effect的风险比为0.79,若取95%置信区间则为0.72至0.87(即死亡风险降低21%,95%置信区间为13%至28%)。summary effect的p值为0.0000008。

3.限定每个effect size的置信区间以表示该研究的精确度。如果区间中不包括1.0,则可以看到其p值小于0.05,从而研究具有统计学意义。通过对上图中数据的分析,我们发现其中6项研究具有统计学意义,27项研究没有统计学意义

总的来说,这种治疗降低了21%的死亡风险。而且,在所有的研究分析中,这种影响是相当一致的。

在这本书的讲解中,我们解释了推得这些结论的统计方法。我们在本章中的目标只是解荟萃分析确实提供了这些机制,而叙事性综述则没有。但两者的主要区别如下。

*STATISTICAL SIGNIFICANCE*

研究的第一个问题是结果的统计意义。

叙述性文献综述没有综合不同研究的p值的机制,必须将它们作为离散的数据处理。在这个例子中,有6项研究在统计上有显著性,而其他27项没有显著性,这使得一些人得出结论,即他们认为有证据反对这种结论,或者认为结果不一致而导致结论是没有意义的(见第28章计票)。相比之下,meta分析允许我们结合这些效应并评估summary effect的统计显著性。summary effect的p值为p=0.0000008。

虽然有人可能会认为27项研究没有达到统计意义的原因是他们报道的effect较小,但很明显,从森林图(forest plot)上来看,这并非事实。事实上,在这些研究中,许多研究的治疗effect(effect)实际上比六项具有统计学意义的研究的治疗effect(effect)更大。相反,82%的研究没有统计学意义的原因是这些研究的样本量小和统计能力低。事实上,正如第29章所讨论的,大多数人的力量都不到20%。相比之下,meta分析的能力超过了99.9%(见第29章)。

在这个例子中,如果一个综述的目标是检验零假设(零假设(null hypothesis),统计学术语,又称原假设,指进行统计检验时预先建立的假设。 零假设成立时,有关统计量应服从已知的某种概率分布。),那么荟萃分析为此提供了一个数学上严格的机制。

CLINICAL IMPORTANCE OF THE EFFECT*(effect在临床上的重要性)*

由于叙述性文献综述的出发点通常是各种研究报告的p值,因此综述通常会关注研究所给出的各项证据是否可以否定原假设(零假设 即Null hypothesis)。但并没有比较好的框架来讨论effect size这一因素。相比之下,本卷中讨论的荟萃分析方法允许我们计算每个研究的effect size的估计值,而这些effect size是分析的核心。

这一点很重要,因为effect size是我们所关心的。如果临床医生或患者需要决定是否采用治疗,他们想知道治疗是否能将死亡风险降低5%、10%或20%,这就是effect size所携带的信息。同样地,如果我们正在考虑实施一项干预措施,以提高学生的考试成绩,或减少高危青少年的监禁人数,或增加胰腺癌患者的生存时间,那么我们要问的问题是影响的程度。p值只能告诉我们效应不为零,而简单地报告效应不为零就是漏掉了重点。

CONSISTENCY OF EFFECTS*(effect的一致性)*

当我们处理一系列研究时,至关重要的一点是,在所有研究中,effect size是否一致。与平均降低20%死亡风险的药物相比,持续降低20%死亡风险的药物的含义是完全不同的,比如说平均降低20%的死亡风险可能意味着在某些人群中增加20%的风险,而在其他人群中减少60%。

叙述性综述没有很好的机制来评估effect的一致性。叙述性回顾从p值开始,由于p值受研究规模和研究effect的影响,一项研究的p值为0.001,另一项研究的p值为0.50并不意味着前者的effect size更大。p值0.001可以反映大的effect size,但也可以反映大型研究中的一项中等或小effect size(例如,参见图2.1中的GISSI-1研究)。p值为0.50可以反映较小(或为零)的effect size,但也可以反映较小研究中的较大effect size例如,见Fletcher研究)。

这一点在叙述性综述中经常被忽略。通常,研究人员将一个无意义的结果解释为没有影响。如果一些研究在统计学上有显著性,而另一些则没有,评审者会认为结果是相互矛盾的。这个问题贯穿于许多研究领域。

施密特(1996)概述了这种做法对研究和政策的影响。

假设有人提出一个想法,可以提高非裔美国儿童的考试成绩。进行了大量的研究来检验这种干预措施。effect size是积极的,并在所有研究中保持一致,但其效力(power)是50%左右,因此只有约50%的研究产生统计上显著的结果。研究人员报告说,证据是“相互矛盾的”,并启动了一系列研究,以确定为什么这样的干预在一些研究中有积极的影响,但在其他研究中没有(这是老师的态度吗?是学生的社会经济地位吗?),完全忽略了一点,即从一项研究到下一项研究的effect实际上是一致的。最终,研究人员认为这个问题无法理解。一个有希望的想法消失了,一种认为研究是不可信的看法建立起来了。Meehl(1978,1990)也提出了类似的观点。

Rossi(1997)给出了一个记忆研究领域的例子,说明了当研究者处理离散的p值时,研究领域会发生什么。

研究人员是否能够证明先前消失的联想的自发恢复,这一问题与许多重要的学习理论有关,1948年至1969年间发表了大约40项关于这一主题的研究。只有大约一半的研究获得了这种影响的证据(即统计上显著的发现),这使得大多数文本和评论得出结论,这种影响是短暂的,“问题没有得到解决,而是被放弃了” 后来,罗西回到这些研究中,发现平均effect size(d)为0.39。如果我们假设这是人口效应量(population effect size)的大小,那么这些研究的平均效力(power)将略低于50%。在此基础上,我们预计大约有一半的研究会产生显著的效果,而这正如我们所见。

更糟糕的是,当在一类样本中进行有意义的研究,而在另一类样本中进行无意义的研究时,研究人员有时会将这种差异解释为这种影响存在于一个群体而不是另一个群体。Abelson(1997)指出,如果一种治疗效果对袋熊产生的p值为0.07,对丁蝙蝠产生的p值为0.05,那么我们很可能会看到一个讨论,解释为什么这种治疗只对后一组有效——完全忽略了一点,即两组的治疗效果可能几乎相同。如果样本量更小,对袋熊的治疗效果可能更大。

相比之下,荟萃分析完全改变了格局。首先,我们用effect size的大小(不是p值)来确定effect size在研究中是否一致。此外,我们应用基于统计理论的方法,允许部分(或全部)观察到的差异是由于随机抽样的变化,而不是真实effect size的差异。然后,我们应用公式将方差划分为随机误差和实际方差,量化研究之间的真实差异,并考虑该方差的含义。在施密特和罗西的例子中,由于所有计算出的effect size都几乎相同,因此所有观察到的effect变化都可以归因于随机抽样误差

*PART 2 EFFECT SIZE AND PRECISION*

*CHAPTER 3*

*OVERVIEW*

*TREATMENT EFFECTS AND EFFECT SIZES*

不同的人以会在不同场合中选择使用术语“治疗效果“和”effect size”。 医学上的荟萃分析通常将effect size称为治疗效果,有时会假定该术语是指在进行医学干预的荟萃分析中常见的优势比,风险比或风险差异等参数。

同样,社会科学的荟萃分析通常将effect size简称为effect size,并且有时会假定此术语是指标准化均值差异或相关性,这在社会科学荟萃分析中很常见。

但是,实际上,effect size和治疗效果这两个术语在特定环境下是等价的,而这些术语之间的区别不在于指标本身,而在于研究的性质。 当使用索引(index)来量化两个变量之间的关系或两组之间的差异时,术语effect size是合适的。 相比之下,术语“治疗效果”仅适用于用于量化故意干预的影响的指标。 因此,男性和女性之间的差异可以仅称为effect size,而治疗组和对照组之间的差异可以称为effect size或治疗效果。

尽管大多数荟萃分析关注变量之间的关系,但某些分析的目的是估计单个总体的均值,风险或比率。 例如,可以使用荟萃分析分析瓦巴什(Wabash)莱姆病患病率或犹他州学生的SAT平均得分的几种估计。 在这些情况下,指标显然不是治疗效果,也不是effect size,因为存在effect即暗示了两个变量之间存在关系,而在这里并不存在什么明显的对应的关系。 因此我们在这里可以将被估计的参数简称为单组汇总(single group summary)。

但是请注意,将索引分类为effect size和/或治疗效果(或仅是单个组摘要)与其计算方法如何无关。在荟萃分析中,我们获得的是一系列数据(或一系列数据的方差),并对他们应用一系列的数学公式来取得结果。 在本卷中,我们通常使用effect size一词,但从广义上讲,它也包括治疗效应,单组汇总或甚至是一般统计量。(换言之,严格意义上,效应大小指的是两个变量之间的关系的量化,但在本书中,为方便起见我们将一些描述统计学的参数也视作效果大小)

*How to choose an effect size*

effect size的选择应考虑三个主要因素。

首先,不同研究之间的effect size应该是可比的,因为它们研究的对象一般而言是相同的(至少是类似的)。也就是说,effect size不应与不同研究之间的细节差异有太大的关联。(类比于物理中的伽利略变换)

第二,在研究开始以前,effect size的估计值应该可以根据已发表的研究报告中的数据计算。也就是说,不需要重新分析原始数据(除非已知这些数据可用)。

三是effect size应具有可信的参数支持。例如,其抽样分布应是已知的,以便计算方差和置信区间。

此外,effect size应有实在的现实意义。即最后分析得出的effect size应该是一个对现实有参考意义的数据,而非为了方便计算而特别设置的参数(比如为了方便计算可能会将初始的effect size设置为对数风险比)。在分析的末尾,我们需要把这些参数转化为直观的有参考意义的数据(比如从对数风险比到风险比的转换)

在实际操作过程中,初级研究中使用的数据通常会导致几个以上的effect size的集合满足上述标准,这使得选择effect size的过程相对简单。举例来说,如果初步研究报告的汇总数据是基于两组的平均数和标准差,则恰当的的effect size通常是平均数的原始差异、平均数的标准差或应答率(response ratio)。如果汇总数据基于二元结果,如两组中的是事件和非事件,则适当的影响大小通常为风险比、优势比或风险差。如果初步研究报告了两个变量之间的相关性,那么相关系数本身可以作为effect size。

*PARAMETERS AND ESTIMATES*

在整个本书中,我们以字母表示潜在effect size参数(由希腊字母θ表示)(即理想情况下,样本数量无穷大的时候所得出的effect size)和该参数的样本估计值(由Y表示)(现实情况中,样本数量有限得到的effect size)之间的区别。

如果一项研究有一个无限大的样本量,那么它将产生一个与总体参数(population parameter)θ相同的效应量Y。但事实上,样本大小是有限的,因此effect size估计值Y总是与θ相差一定量。Y的值随样本的不同而变化,这些值的分布就是Y的抽样分布。统计理论允许我们估计样本分布的影响大小估计,从而也导致了一定的误差。

*CAHPTER 4*

*EFFECT SIZES BASED ON MEANS*

***RAW (UNSTANDARDIZED) MEAN DIFFERENCE D(****原始平均差(非标准差))*

当研究在测量结果时采用了一种有意义的测量方法,并且分析中的所有研究使用这种相同的指标/测量方法时,meta分析可以直接在所得数据平均数的原始差异上进行(此后,我们将使用更常见的术语,原始平均差异)。原始平均差的主要优点是其在直觉上很好理解,或者是因为它的广泛使用(例如,全国学生成绩测试,所有相关方都熟悉量表)。

考虑一项报告两组(治疗组和对照组)平均值的研究,假设我们希望比较这两组的平均值。设μ1和μ2为两组的(总体)平均数。总体平均差定义为

△=μ1-μ2

在接下来的两个部分中,我们将展示如何从使用两个独立组(independent group)的研究和使用配对组(paired group)或匹配设计的研究中计算参数D及其方差。

*Computing D from studies that use independent groups*

我们可以通过使用了两个独立组的研究来估计平均差△,如下所示。设
$$ x ̅_1和x ̅_2 $$ 为两个独立组的样本均值。△的样本估计(sample estimate of △)就是两个样本均值的差,即D $$ D=x ̅_1-x ̅_2 $$ 请注意,大写D表示原始平均差,而小写d表示标准化均数差(standardized mean difference)(见下文)。

设S1和S2为两组的样本标准差,n1和n2为两组的样本量。如果我们假设两组的总体标准差是相同的(在大多数参数数据分析技术中都是这样),即σ1=σ2=σ,那么D的方差即为 $$ V_D=(n_1+n_2)/(n_1 n_2 ) S_{pooled}^2 $$ 其中 $$ S_{pooled}=√(((n_1-1) S_(1 )^2+(n_2-1) S_2^2)/(n_1+n_2-2)) $$ 上式称为”合并样本标准差“

若我们假设两组数据的总体标准差不同,则D的方差为 $$ V_D=(S_1^2)/n_1 +(S_2^2)/n_2 $$ 而无论是哪一种情况,D的标准差即为其方差的平方根 $$ 〖SE〗_D=√(V_D ) $$ *Computing D from studies that use matched groups or pre-post scores*

先前的公式适用于使用两个独立组(即两组之间的对象互不关联)的研究。

另一个研究设计是使用匹配组(matched groups),其中参与者对以某种方式匹配(例如对象之间存在一定的亲缘关系(兄弟姐妹)或是处于同一疾病阶段的患者),然后将每对参与者中的两个成员分配到不同的两个组。进行分析时,其最小单位为一对被分配到不同组的两个对象,这种设计的优点是每对都可以进行自身对照(serves as its own control),从而减少了误差项并提高了统计能力。 影响的程度取决于(例如)同级兄弟之间的相关性,相关性越高,方差越小(精度越高)。

△的样本估计值是样本均值差D。如果我们有每一对的差值,则得出均值差 $$ X ̅_{diff} $$ 和这些差值的标准差 $$ S_{diff} $$ 因此有 $$ D=X ̅_{diff}(每一对样本数据之间差的平均值) $$ 和 $$ V_D=(S_{diff}^2)/n $$ 其中n是样本的对数,并且有, $$ SE_D=√(V_D ) $$ 或者,如果我们拥有每组分数(例如A组和B组有关某实验指标的分数)的均值和标准差,则其样本均值差为 $$ D=X ̅_1-X ̅_2(同上) $$ 同样的,其方差由下式给出, $$ V_D=(S_{diff}^2)/n $$ 其中n是样本对数,其标准差为 $$ SE_D=√(V_D ) $$ 但是,在这种情况下,我们需要借由分数的标准差来计算差分分数的标准差(即每一对对象有关某实验指标得分差异的标准差),有 $$ S_{diff}=√(S_1^2+S_2^2-2rS_1S_2 ) $$ 其中r是配对中“兄弟姐妹”之间的相关性。如果S1=S2,则上式简化为 $$ S_{diff}=√(2S_{pooled}^2 (1-r)) $$ 在任何一种情况下(指使用匹配组或打分组),当r向1.0移动时,成对差异的标准差将减小;而当r=0时,该研究分组的标准差与使用两个独立组(每组大小为n)的研究无异。

这些为使用匹配组研究得出的公式也适用于前后测(pre-post test)。前后平均值与匹配组中的两组平均值相对应,n是受试者人数,r是前后得分之间的相关性。

*Calculation of effect size estimates from information that is reported*

当一个研究者获得了一整套的汇总数据,例如平均值、标准差和每组的样本量时,效应量及其方差的计算就相对简单了。然而,在实践中,研究人员往往只会公布一部分数据。例如,一篇论文可能只公布显著性检验的p值、均值和样本量,让荟萃分析人员来反算影响大小和方差。有关从部分信息计算效果大小的信息,请参见Borenstein等人(2009)

*Including different study designs in the same analysis*

有时,系统性综述会包括使用独立分组的研究以及使用匹配分组的研究。 从统计学的角度来看,无论研究设计如何,effect size(D)(我们假设这里的effect size指的是样本均值差)的含义都是相同的。 因此,我们可以使用对应的公式来计算每个研究的effect size和方差,然后将所有研究包括在同一分析中。 尽管在同一分析中使用不同研究设计没有技术障碍,但可能存在这样的担忧,即使用不同设计的研究在研究结果的意义上可能有所不同(请参阅第40章)。

对于所有研究设计(无论使用独立的还是成对的组)而言,effect size的符号 $$ X ̅_1-X ̅_2 或X ̅_2-X_1 ̅ $$ 可以是任意规定的,除非研究人员事先确定规范的标准。 例如,如果阳性差异表明治疗组的疗效优于对照组,则该规定必须应用于使用独立分组设计的研究和采用前后测的研究。 在某些情况下,可能有必要反转effect size的计算符号以确保遵循约定

*STANDARDIZED MEAN DIFFERENCE, d AND g*

如前所述,当参数测量方法具有内在意义或由于广泛使用而有意义时,原始均值差是有用的指标。 相比之下,当该度量标准不太为人所知时(例如,使用范围有限的专业测量方法),则并不推荐使用原始均值差。 无论如何,只有在荟萃分析中的所有研究均使用相同测量方法的情况下,才可以选择原始均值差。 如果不同的研究使用不同的工具(例如不同的心理或教育测验)来评估结果,则测量的结果将因研究方式方法的不同而异,并且将原始均值差进行合并将没有意义。

在这种情况下,我们可以将每个研究结果的平均差(每个研究对象所得数据的平均差异)除以该研究结果的标准差,以创建一个在不同研究方式之间具有可比性的指标(标准化均数差)。 这与Cohen(1969,1987)在描述统计功效分析中影响的大小时所建议的方法相同。

当满足以下两个的其中之一时,标准化均数差被认为是具有可比性的。

第一,如果所有研究中的结果指标之间互相的关系是线性时(即,某个指标可以通过线性变换来获得另外一个指标)(换言之,这些不同研究之间所使用的测量标准是有一定的相似的,并且通过“线性变换”,某一项研究的测量标准可以等价与另一项研究的测量标准。例如一项研究中采用“米”作为单位而另一项研究中采用“英尺”作为计量单位,这两者之间的差异仅在于系数不同,即线性关系),那么标准化均数差可以认为是,将所有研究项目的测量标准(或方法)调整到一致并且再调整到一致后其不同项之间的标准差等于1时所计算得出的均值差

第二,当标准均值差度量了两个不同数据类型之间的重叠程度时。在这种情况下,标准化均数差反映了两组分布之间的差异(以及每一组如何代表一组不同的分数),即使它们测量的并非是一样的结果(见Cohen,1987,Grissom和Kim,2005)。

考虑一个使用独立分组方法的研究设计,并且假设我们希望比较两个组别的平均数之别。记
$$ μ_1和σ_1 $$ 为第一组的总体平均值和总体标准差(即假设样本的量为无穷大时的值),对于另一组则记为 $$ μ_2和σ_2 $$ 如果两组的总体标准差相同,即 $$ σ_2=σ_1=σ $$ (事实上这是大多数研究的前提假设),那么其标准均值差(或称总体标准均值差(population standardized mean difference)定义为 $$ δ=(μ_1-μ_2)/σ $$ 在接下来的部分中,我们将展示如何在使用独立分组设计,匹配分组设计,前后测设计的研究中估算(estimate)δ的方法。我们在这里给出一个前提假设,在接下来的推算中我们都认为这个假设是正确的,即 $$ σ_1^2=σ_2^2 $$ *Computing d and g from studies that use independent groups*

我们可以采用以下方法来计算使用独立分组研究设计的δ $$ d=(X ̅_1-X ̅_2)/S_{withtin } $$ 其中 $$ X ̅_1和X ̅_2 $$ 是两组的的样本平均值(注意其和总体平均值之间的差别),而 $$ S_{withtin} $$ 则指的是组内标准差(within-group standard deviation),其计算方法与普尔标准差(合并样本标准差)的计算方法相同 $$ S_{within}=√(((n_1-1) S_(1 )^2+(n_2-1) S_2^2)/(n_1+n_2-2)) $$ 其中n1和n2是样本容量,s1和s2是两组的数据标准差(实际上,这是经过贝塞尔分析以后的数据标准差(或称实验标准差),并非原始数据)。我们将这两组数据的实验标准差放在一起的原因在于,即使我们假设两组样本的总体标准差是相同的,其样本标准差S1与S2也不大可能相同,而通过将两组样本的标准差组合在一起进行分析,我们可以对他们之间的common value有更为清楚的认知。

在综述中,标准化均值差的样本估计(真正的effect size应该是总体标准平均差δ,但由于不可能得出δ,因此要根据有限的样本量来估算δ的值,这个估算出来的值即称为δ的样本估计值(the sample estimate))通常称为Cohen‘s d。

为了避免混淆,我们使用希腊字母δ来表示effect size而使用d来表示该参数的样本估计值

d的方差由下式给出 $$ V_d=(({n_1+n_2})/n_1n_2)+d^2/2(n_1+n_2) $$ 这是一个比较好的近似,在此等式中,等号右边的第一项反映了均值差的估计中的不确定性,即均值差估计中的分子 $$ (X ̅_1-X ̅_2) $$ 而第二项反映了 $$ S_{within} $$ 的估计值中的不确定性,即均值差估计中的分母

d的标准误差是Vd的平方根, $$ SE_d=√V_d $$ 事实证明,d略有偏差,在计算样本数量较少的δ时,其估算值通常会较高。 可以通过简单的校正来消除此偏差,该校正所产生的无偏估计通常称为Hedge's g。 为了将d转换为Hedge's g,我们使用了一个校正因子,称为J。Hedges(1981)给出了J的精确公式,不过在一般情况下,研究人员会使用近似值。 $$ J=1-3/(4df-1) $$

在该表达式中,df用于估计Swithin的自由度,对于两个独立的组而言,其自由度为n1+n2 –2。当df>=10时,该近似值的误差在数值上一般小于0.007而在百分比上一般上小于0.035%。从而 $$ g=J*d $$

$$ V_g=J^2*V_d $$

举例来说,假设现在有两组样本,样本平均值分别是103和100,样本标准差分别是5.5和4.5,并且样本容量分别是50与50.则这两组样本的普尔组内标准差 $$ S_{within} $$ 或称合并样本标准差是

5.0249

从而d=0.5970,Vd=0.0418,SEd=0.2044

在经过校正以后,可以得到校正系数J=0.9923

因而g=0.5924,Vg=0.0411,SEg=0.2028

校正因子(J)始终小于1.0,因此g的绝对值始终小于d,并且g的方差始终小于d的方差。 不过就其大小而言,在df非常小的时候(例如小于10),J的大小会十分接近于1

在这方面的论述中,不同作者(甚至同一作者)对d和g的表达式给出了不一样的表达式 。例如,我们所给出的d的方差表达式中,第二项的分母是 $$ 2(n_1+n_2) $$ 事实上,这是基于在n不断变大时,δ不会产生变化的假设。另一个假设(假设在n不断变化时,不变的是 $$ n^{1/2}δ $$ 在这种情况下,分母会变为 $$ 2(n_1+n_2-2) $$ 不过除非是在n1和n2非常小的情况下,不然这两个表达式的结果几乎相同

Computing d and g from studies that use pre-post scores or matched groups

在使用了匹配组或评分研究方法的研究中,样本估计值d的表达式是 $$ d=Y ̅_{diff}/S_{within}=(Y ̅_{1}-Y ̅_2)/S_{within} $$ 总体上看,该公式的形式与使用独立分组时的样本估计值表达式相同。但是,当我们采用独立分组时,采用的是合并标准差;在匹配分组时,我们采用的是分数差异的标准差(在独立分组中,我们进行统计的最小单位是个体,而在匹配分析中最小的统计个体是匹配的一对对象),因此这两个Swithin的内在意义是不同的

具体来说,在进行匹配研究时,可以使用 $$ S_{within}=S_{diff}/√2(1-r) $$ 其中r是观察值对之间的相关性(例如,前测后测之间的相关性)。 然后我们可以将其应用于计算d。 d的方差为 $$ V_d=(1/n+d^2/2n)2(1-r) $$ 其中n是样本的对数,d的标准差即为其方差的平方根

由于需要从评分前和评分后之间建立相关性,才能根据差异的标准偏差来估算组内的标准偏差,因此我们必须假设此相关性是已知的,或者可以以高精度进行估算。若非如此,我们可能需要从相关研究中估算相关性,并进行一系列的敏感性分析以确定最合适的相关度 计算g时,我们依然可以采用此前的公式,但不同的是,在此前的公式中,自由度可以改为n-1,其中n是对数

RESPONSE RATIOS(响应比)

在以物体的物理参数(长度,面积等)为研究结果(一般而言,这类研究结果不太会是0)的研究中,两组研究数据的均值的均值可以作为effect size。这类effect size被称作响应比

image-20210510180351226

要注意的是,这类effect size只有在所有数据都采用同一自然存在的比例尺度度量时才有意义(比如使用米这一单位)对于测量诸如考试成绩,测量态度或判断之类的结果的研究(例如大多数社会科学研究),响应率没有意义,因为它们没有自然的标度单位,也没有自然的零点。

对于响应率,计算以对数刻度进行。 我们计算对数响应比和对数响应比的标准误差,并使用这些数字执行荟萃分析中的所有步骤。 只有这样,我们才能将结果转换回原始指标。 如上图所示

响应比的定义如下 $$ R=X ̅_1/X ̅_2 $$ 其中分子和分母都是两组数据的平均值,接着转化为对数标度 $$ lnR=ln(X 1/X ̅_2)=ln(X ̅_1)-ln(X ̅_2) $$ 对数标度的响应比的方差为 $$ V{lnR}=S^2_{pooled}(1/nX^2_1+1/nX^2_2) $$ 其中Spooled是普尔标准差

请注意,我们并没有以原来的比例来计算响应比,而是使用了对数尺度,因此在最后算出总对数响应比之后,我们要用e将其转换过去

CHAPTER 5 Effect Sizes Based on Binary Data( 基于二元数据的effect size)

introduction:

对于来自预测性研究(如随机试验)的数据,最初的报告通常是其中是时间和非事件的数量(一般为2 * 2表),研究人员通常会借此计算风险比、优势比和/或风险差。我们设这些数据的值分别是A,B,C,D如表5.1所示。

例如,假设一项研究每组的样本量为100。实验组死亡5例,对照组死亡10例(见表5.2)。

image-20210514140908754

根据这些数据,我们可以计算出风险比(risk ratio)、优势比(add ratio)和/或风险差(risk difference)。

RISK RATIO

风险比率指两组研究中发生同一风险几率的比值。例如在这里,治疗组的死亡风险为5/100,而对照组的死亡风险为10/100,因此这两种风险的比率为0.50。这个指数的优点是直观,即比率的含义是明确的。

对于风险比率,计算是在对数尺度上进行的。我们计算对数尺度的风险比并求其标准差,再使用这些数字来执行meta分析中的所有步骤。最后我们再将对数尺度转化为原先的尺度

风险比的计算公式如下 $$ RiskRatio=\frac{A/n_1}{C/n_2} $$ 对数风险比则为 $$ LogRiskRatio=ln(RiskRatio) $$ 根据幂函数展开式,其方差的近似值大约是 $$ V_{LogRiskRatio}=\frac1A-\frac1{n_1}+\frac1C-\frac1{n_2} $$ 因此其标准差近似值约为 $$ SE_{LogRiskRatio}=\sqrt {V_{LogRiskRatio}} $$ 同之前我们计算响应比的流程类似,计算风险比的大致流程如下

image-20210514142258282

因此类似的,我们在分析的最后将对数尺度转换回原先的持度,此处不再赘述。

例如

image-20210514142606066

注1:为什么在数据分析过程中需要使用对称变换?这是因为,在分析中需要对数变换来保持对称性。

假设在一项研究中,A组的风险是对照组的两倍,而在另一项类似研究中,B组的风险也是对照组的两倍。假设这两项研究的权重相等,这些研究应相互平衡,综合来讲,这两项研究都应该显示风险比是1.0,平均值也应该是1.0。然而,在比率标度上,这些对应的风险比既可以是0.5,也可以是2.0,因此存在平均值为1.25的情况。通过使用对数标度,我们可以避免这个问题。

以对数单位计算,这两个估计值分别为+0 .693和-0.693,平均值为0.00。 我

们将其转换回风险比1.00,这是该数据的正确值。

注2:风险比并不一定指死亡风险,还可以是生还风险,此外,存活的“风险”不是死亡风险的倒数(也就是说,1.056不是0.50的倒数),因此这应该被视为影响大小的不同度量。

ODDS RATIO(比值比,或称优势比)

风险比是发生某同一风险的概率的比值,而比值比则是一项研究中发生某项事件和不发生某项事件的比值与另一项类似研究中该参数的比值(比值的比值),举例来说,在开头的例子中,实验组和对照组的比值比为。 $$ \frac{5(实验组死亡样本数)/95(实验组生还样本数)}{10(对照组死亡样本数)/90(对照组生还样本数)} $$ 虽然这种效应大小的衡量方法不如风险比直观,但比值比具有一定的统计学特性,这使其往往成为荟萃分析的最佳选择。当事件的发生风险较低时,比值比的大小近似于风险比

对于优势比,计算同样是在对数尺度上进行的(原因与风险比相同)。我们计算对数优势比和对数优势比的标准差,并使用这些数字来执行meta分析中的所有步骤。只有这样,我们才能将结果转换回原始度量。如图5.2所示。 优势比的计算公式是 $$ OddRatio=\frac{AD}{BC} $$ 取对数以后,根据幂函数展开,其方差大约为 $$ V_{LogOddsRatio}=\frac1A+\frac1B+\frac1C+\frac1D $$

因此标准差为 $$ SE_{LogOddsRatio}=\sqrt{V_{LogOddsRatio}} $$ 分析流程如下

image-20210514145807967

例如在本章开头的例子中

image-20210514145857450

注:在比值比的计算过程中,分子并不一定要是对照组,分母同理,我们可以在定义某项研究的优势比时随意交换分子分母的顺序,只要我们在后续的计算中也保持这样的顺序即可。比如在上面的例子中,加入我们将实验组的数据放在分子上,那么对数比值比的符号会发生改变,并在最后转换回原来尺度时解得我们之前解的倒数。不过要注意的是,风险比计算中不可以这么做。

RISK DIFFERENCE

风险差指的是两种风险之间的差异。这里,治疗组的风险为0.05,对照组的风险为0.10,因此风险差为0.05。

与风险比和比值比不同,风险差的计算是以原始单位而不是对数单位进行的。

风险差定义为 $$ RiskDiff=(\frac{A}{n_1})-(\frac{C}{n_2}) $$ 其方差的近似值为 $$ V_{RiskDiff}=\frac{AB}{n_1^3}+\frac{CD}{n_2^3} $$ 从而其标准差的近似值为 $$ SE_{RiskDiff}=\sqrt{V_{RiskDiff}} $$ 在本章节开头的例子中

image-20210514151412396

CHOOSING AN EFFECT SIZE INDEX(选择effect size指标)

在选择风险比、优势比和风险差异时,研究者需要同时考虑实际因素和技术性因素。

风险比和比值比都是相对的度量,因此对基线事件(baseline events)的发生概率之间的差异相对不敏感。相比之下,风险差异是一个绝对性的衡量标准,因此对基线风险非常敏感。如果我们想了解一种化合物的用途,并且假设它能将一个事件的发生风险降低20%,在不考虑基线风险的情况下,通过使用一个比率指数,即使基线风险因研究而异,我们也可以期望在不同的研究中看到相同的效应大小。相比之下,在基线较高的研究中,所得出的风险差会更大。

同时,如果我们想表示一项治疗方法的临床效果,风险差可能是更好的衡量标准。假设我们进行荟萃分析来评估实验组和对照组发生不良事件的风险。治疗组的风险为1/1000,对照组为1/2000,风险比为2.00。或者实验组的风险为0.0010而对照组的风险为0.0005时,风险差为0.0005。这两个统计数据(2.00和0.0005)都是正确的,但测量的并非是同一指标。

由于这些比率对基线风险不太敏感,并且风险差有时更具临床意义,一些人建议使用风险比(或比值比)进行荟萃分析,并计算汇总风险(或比值比)。然后,他们可以用这个来预测任何在给定基线风险情况下所对应的的风险差。

CAHPTER 6 Effect Sizes Based on Correlations(基于相关度的effect size)

INTRODUCTION

对于报告两个连续变量之间相关性的研究,相关系数本身就可以作为效应大小指数。相关性是一种直观的度量,与$\delta$一样,这种所谓的“相关度”需要被标准化以用于比较使用不同测量方法测算出来的数据。总体参数$\rho$表示

COMPUTING r

总体相关系数 $\rho$的估计值由样本相关系数r表示,样本相关系数的方差近似可以用下式表示 $$ V_r=\frac{(1-r^2)^2}{n-1} $$ 其中n是样本容量

当我们对相关性进行荟萃分析时,实际上一般不会对原始数据进行方差和标准差这类的表观统计学的分析,因为方差很大程度上取决于相关性。相反,我们一般对样本相关系数进行费雪变换(fisher's transformation)(不要与显著性检验中使用的z分数混淆),并使用转换后的值进行分析。其所得结果,如summary effect size和它的置信区间,将转换回相关性来表示。流程图如下所示,与优势比或风险比使用的流程类似,所有分析均使用对数转换值,然后转换回原始指标

image-20210514161321927

费雪变换的定义

样本相关度的费雪变换为 $$ z=0.5*ln(\frac{1+r}{1-r}) $$ 与此同时,z的方差近似值为(这是一个十分出色的近似) $$ V_z=\frac1{n-3} $$ 从而其标准差为 $$ SE_z=\sqrt{V_z} $$ 我们在使用费雪变换时,并不将原数据的方差作为其相关性的体现。相反的,我们将原数据的样本相关系数进行费雪变换并计算其方差,置信区间等数据,最后我们将这些计算数据中的z全部转换回r,有 $$ r=\frac{e^{2z}-1}{e^{2z}+1} $$ 例如

image-20210514162823127

CAHPTER 7 Converting Among Effect Sizes(effect size 之间的转换)