通过

内森·奧勇

—

2026年5月24日

元分析与系统评价：核心区别的清晰解析

内森·奧勇

安永的高级会计师

获得会计学学士学位，完成会计研究生文凭

领英

系统评价（Systematic review）与荟萃分析（Meta-analysis）常被混淆，但它们是两种截然不同的工具。系统评价通过收集并批判性地评估针对某一特定问题的所有研究，是一个详细的定性过程。

荟萃分析则是在系统评价之后可以使用的一个定量步骤，它通过统计学方法将这些研究的数值结果合并，从而得出一个单一、更具说服力的结论。

选择错误的方法会削弱你的研究工作。若要梳理现有的证据，请使用系统评价。如果你的目标是广泛地梳理概念和研究空白，而非评估研究质量，可以将其与范围评价与系统评价进行对比。只有当收集到的研究数据具有足够的兼容性、能够进行数学合并时，才应添加荟萃分析。

什么是系统评价？

系统评价是一个针对特定主题查找、评估和总结每一项研究的系统化过程。它通过采用严格且预先确定的步骤，来最大限度地减少研究人员的偏见，并使结论更加可信。如需获取实用的撰写指南，请参阅我们的系统文献评价写作逐步指南。

作为医学证据领域的主要权威机构，考克兰协作网（Cochrane Collaboration）指出，这些评价对于系统评价预期至关重要。它们将多项独立研究的结果汇集在一起，以提高决策的准确性。

实际操作中的工作原理 该流程遵循严格的顺序：

首先，定义一个精确的研究问题。
接着，在 PubMed 或 Scopus 等数据库中进行彻底的检索。
然后，根据你的纳入标准对检索到的所有研究进行筛选。
批判性地评估每项纳入研究的质量和潜在偏见。
最后，综合并总结整体研究结果。该过程的每一个环节都会被详细记录，以创建透明的审计轨道。

示例场景 假设你的研究问题是：药物 X 能否可靠地降低血压？

针对该主题的系统评价将搜寻每一项相关的临床试验，对比它们的结果，并寻找整体规律。其最终总结可能会指出证据充分且一致，也可能会揭示数据存在矛盾且薄弱。

核心优势 这种方法可以回答广泛的“有什么证据？”这类问题。同时，它也能清晰地勾勒出未来需要开展研究的领域。

什么是荟萃分析？

荟萃分析是一种统计学技术。它通过数学方法将多项独立研究的数值结果进行合并，以产生一个更精确的整体估值。它不是一个独立的方法，而是直接建立在系统评价的基础之上。

美国国家卫生研究院指出，这种将多源数据进行合并的做法能够增强统计效能，使最终结果更具稳健性，具体阐述请参见荟萃分析入门。

其独特之处 荟萃分析不是对研究进行叙述性总结，而是对数据进行计算。它计算的内容包括：

合并后系统的效应量（效应的大小）。
置信区间（真实值可能存在的范围）。
加权平均值，其中样本量更大或更可靠的研究对最终结果的贡献权重更大。这一过程产生了一个可度量的定量答案。

示例场景 同样以降低血压的药物为例。荟萃分析会提取每项纳入试验中具体的血压下降数值，然后计算出一个平均下降百分比（例如 15%），并提供一个置信区间（例如 12% 至 18%）。

核心输出 其研究结果通过特定的统计工具展示：

森林图，直观地展示每项研究的结果以及合并后的结果。
统计学显著性数值（p 值）。
异质性指标（如 I² 统计量），用于显示各研究结果之间的差异程度。这种统计学上的严谨性使结论更加精准。

荟萃分析与系统评价：核心区别

要理解两者，你需要分析它们的目的、方法以及产出结果。

对照比较

特征	系统评价	荟萃分析
目的	总结和评估所有现有证据。	计算单一、合并的统计效应。
数据类型	主要为定性数据，但也可包含定量数据。	仅限定量数据；它需要数据来进行计算。
输出	叙述性系统合成、图表和批判性讨论。	统计结果：效应量、置信区间、森林图。
范围	通常较广泛，旨在回答“已知什么？”	范围狭窄，专注于某一具体的可测量结局。
要求	结构化且记录成文的研究方案（Protocol）。	需要以系统评价作为研究基础。

实际意义 可以将系统评价理解为阅读并总结关于某一特定主题的每一本书。而荟萃分析则好比从每本书中提取一个特定的测量值（例如角色的身高），然后计算出所有书的平均身高。

它们是紧密相连的，通常前者会为后者提供基础。但它们并不能等同。

何时应该使用何种方法？

你的选择取决于你想要探究的问题，以及现有研究实际提供的数据类型。

在以下情况下使用系统评价：

现有研究在研究方法或研究人群上差异过大。
它们报告的数据不具有直接可比性（例如，一个使用问卷调查，另一个使用实验室检测）。
你的目标是绘制研究全景图、确定整体趋势，或指出研究中存在的空白。

在以下情况下使用荟萃分析：

所有研究的研究结局均以类似的方式测量，且指标相同。
它们的数值结果具备兼容性，可以进行数学合并。
你需要一个精确、量化的答案，例如一个确切的平均效应量。

现实世界中的决策逻辑

如果你所研究的主题的文献错综复杂且缺乏一致性，那么系统评价是你的首选工具，它能化混乱为条理。

如果已发表的研究非常统一且其数据一致，你则可以在系统评价的基础上叠加荟萃分析，以获得更精确的统计学结论。

系统评价的步骤详解

系统评价不具备随意性。它运行在固定的步骤序列之上，旨在排除偏见并确保彻底的透明度。

步骤 1：确定研究问题 首先要锁定一个精确的问题。PICO（研究人群、干预措施、对照、研究结局）框架是为此常用的工具。在参考如何撰写文献综述大纲后，对研究进行结构化理清会变得更为容易。

步骤 2：注册研究方案 在开始检索之前，你需要在 PROSPERO等公共平台上注册你的研究计划。这样可以防止其他团队重复你的工作，并提前确定你的研究方法。

步骤 3：进行全面检索 接着，你需要在多个数据库（如 PubMed、Scopus、Embase）中进行检索，并使用结构化且详尽的关键词列表。其目标是找到所有相关的研究，而不仅是容易获取的研究。

步骤 4：筛选和选择研究 将你预先制定的纳入和排除标准应用于找到的每一项研究。这一筛选过程通常分为两个阶段：首先根据题目和摘要进行初筛，然后再进行全文复筛。

步骤 5：评估质量和偏见 对于每个通过筛选的研究，使用标准化工具（例如针对随机对照试验的 Cochrane 偏见风险评估工具）批判性地评估其质量和偏见风险。

步骤 6：综合研究结果 最后，整合研究结果。这种合并可以采用叙述性总结的形式，如果数据允许，也可以将其作为定量荟萃分析的基础。

每一个步骤都必须保持清晰、详细的书面记录。

荟萃分析如何增强统计效能

荟萃分析通过数学方法合并来自多个独立研究的数据，从而使结论更具说服力。它将许多小数据集转化为一个大数据集。要进一步探索该过程，请参阅开展荟萃分析。

核心统计学技术 该过程依赖于特定的模型和检验：

固定效应模型：假设所有研究中的真实效应量是相同的。
随机效应模型：允许研究之间的真实效应量存在差异，这在实际中通常更符合现实。
效应量计算：推导出研究结局的标准化测量值（例如，用于均值差的 Cohen's d）。
异质性检验 (I²): 量化各研究结果之间的差异程度。

为什么这很重要 合并数据直接增加了总样本量。这增强了统计效能，使最终的估算更准确，且不易受随机误差的影响。

举一个实际的例子。有十个独立的研究，每个研究有 100 名参与者。荟萃分析将它们合并，实际上创建了一个样本量为 1,000 的单一研究。这个更大的样本库使结果更可靠。

解读结果 你需要理解输出的指标：

较窄的置信区间表明你所评估的效应精确度更高。
高 I² 值（如高于 50%）表示各个研究之间存在显著的异质性，意味着它们的结果并不指向完全相同的方向。正确理解这些指标对于从分析中得出正确的结论至关重要。

学生常犯的错误

许多学生混淆了系统评价与荟萃分析之间的关系。这种混淆会削弱他们整个项目的学术价值。

错误 1：将两者混为一谈 它们并不是同义词。荟萃分析是一个具体的、可选的步骤，它可以在系统评价完成之后进行。一个是广泛的科学评估，另一个是具体的数值计算。

错误 2：跳过系统评价 你不能只做荟萃分析。统计学合并需要建立在通过系统评价严格收集和评估的研究的基础之上。跳过这一步意味着你的数据从一开始就是有缺陷的。

错误 3：强行进行统计分析 有时收集到的研究差异过大，它们的研究方法各异，结局测量方式也有所不同。它们的数据根本无法进行数学合并。在这种情况下强行进行荟萃分析只会产生毫无意义的结果。

真实的学术困境 学生们经常在没有合理规划方法论的情况下就直接开始写作。他们选择某种方法是因为它看起来很深奥，而不是因为它适合他们的研究问题或数据。其结果往往是流于表面的分析和站不住脚的论点。

关键在于遵循清晰的流程：从一个精准的问题开始，选择正确的方法，并认真执行每一步。这才是获得可靠答案的方法。

系统评价与文献综述

传统文献综述与系统评价之间的界限有时较为模糊。人们经常将它们混淆。

它们的核心区别在于：文献综述是对某一主题已发表文献的常态化概述，在撰写形式上较为灵活。有关更多背景信息，请参阅叙述性文献综述。

系统评价则完全不同。它遵循严格的、预先制定的研究方案来检索、评估和综合针对某一特定问题的所有证据。其目标是让整个过程透明、可重复，从而最大程度减少偏见。

类型	结构	偏见控制
文献综述	灵活	低
系统评价	严格的方案	高

研究人员通常使用正式的报告规范，例如对 PRISMA 报告规范的解释。这些规范确保没有任何遗漏，且每一步都记录在案。

如何抉择：一个简单的分析框架

通过一个简单的清单，选择正确的方法会变得更加容易。

自问以下问题：

各个独立研究测量的研究结局是否相同且具体？
这些研究之间的数据是否为数值型且具有直接可比性？
你是否需要对合并后的结果进行精确的统计学总结？

如果这三个问题的答案均为“是”，那么荟萃分析可能是正确的选择。如果不是，那么标准的系统评价是更好的选择。可以这样想：系统评价梳理并综合了现有的研究全貌。

而荟萃分析则更进一步，它使用统计学方法从该研究全景图中计算出一个单一、合并后的效应估算值。牢记这一区别通常能够使你的选择非常清晰。

研究实践中的荟萃分析与系统评价

系统评价收集某一特定主题的所有研究，而荟萃分析则提取这些数据并计算出一个全新的、合并后的结果。准确使用这些术语会使你的研究更具学术可信度。每种方法服务于不同的目的，选择正确的方法将增强你的结论说服力。

系统评价收集并评估关于某一主题的所有研究。荟萃分析则对这些研究所提供的数据进行计算，以便为你提供单一且更具说服力的发现。像 Jenni 这样的工具能在此过程中为你提供支持，帮助你构建思想、保持逻辑清晰并开发出强大的研究工作流，它还包含一个 AI 文献综述与相关文献（RRL）生成器和一个专为研究人员设计的人工智能写作助手。