如何实现从样本量、中位数、极值或四分位数到均数与标准差的转换_《中国循证医学杂志》

作者：

罗德惠 ¹ , 万翔 ² , 刘际明 ² ,  童铁军 ¹

1. 香港浸会大学数学系（中国香港 999077）;
2. 香港浸会大学计算机科学系（中国香港 999077）;

关键词：

Meta 分析中位数全距样本量样本均值样本标准差

DOI：

10.7507/1672-2531.201706060

视频：

导出 下载 收藏 扫码 引用

摘要 全文 图表 视频 参考文献 施引文献 补充材料

本文简要介绍在 Meta 分析中如何使用样本中位数、最小值和最大值等综合统计量（summary statistics）来估算连续性数据的样本均数与标准差的方法，并选取了一组真实的案例数据估算样本均数与标准差，以作示例。

引用本文： 罗德惠, 万翔, 刘际明, 童铁军. 如何实现从样本量、中位数、极值或四分位数到均数与标准差的转换. 中国循证医学杂志, 2017, 17(11): 1350-1356. doi: 10.7507/1672-2531.201706060 复制

循证医学（evidence-based medicine，EBM）将临床证据、个人经验与患者的实际状况相结合科学地作出了合理的医疗决策。其中，临床证据是循证医学的核心，其主要来源于大样本的临床随机对照试验（randomized controlled trial，RCT）及系统评价（systematic review）或 Meta 分析。其中，系统评价或 Meta 分析的结果则是公认的最高级别的证据^[1]。在 Meta 分析中，针对连续性数据较为广泛的使用方法是通过加权均数差（weighted mean difference，WMD）将多个相似临床试验里报告的样本均值和标准差综合起来计算统计量。然而，不少研究只报道了样本中位数、最大值和最小值，或者第一和第三四分位数。针对这类情况，研究人员首先需要根据这些综合统计量来估算样本均数与标准差，然后再采用转换过的样本均数和标准差进行 Meta 分析。本文介绍近年来关于从综合统计量来估算样本均值与方差的几种常用方法，以便读者参考和运用。

对于如何准确地估计样本均数和标准差，较为出名的方法是 Hozo 等^[2]在 2005 年提出的使用中位数和极值进行估算的方法。截止 2017 年 9 月 5 号，该文章在 Google Scholar 上已有 1 931 次引用，其中 2014～2017 年就高达 1 430 次。由此可见连续性数据的处理方法在循证医学领域受到了高度关注。2014 年底，Wan 等^[3]指出 Hozo 等^[2]针对样本标准差的估算方法存在较大偏差，故对标准差的估算方法进行了改进。他们的估算方法同样也得到了较高的关注，发表至今在 Google Scholar 上已有 200 次引用。而对于样本均数的估算，Luo 等^[4]又提出了最优均数的估算方法。根据 Wan 等^[3]和 Luo 等^[4]文章，他们从理论和实际应用层面都已证明 Hozo 等^[2]的估算方法存在较大误差，并不能准确地计算出样本均数和标准差。虽然，目前在循证医学领域中对于样本均数和标准差的估算方法的推广也得到了很多研究学者的重视，如刘海宁等^[5]和侯晓雯等^[6]均发表了较为详细的估算方法的回顾。但因其文章发表较早，他们主要推广的仍然是 Hozo 等^[2]的方法，未了解和详细介绍最新发表的估算方法。基于此，本文系统介绍目前最新、最准确的样本均数与标准差估算方法，为读者处理连续性数据提供更新的概念，促进其在实际应用中根据不同情况灵活使用均数和标准差估计方法。

1 数学符号定义

本文主要介绍了两种常用情况下样本均值与标准差的现有估算方法及其优缺点，并对案例^[7]数据采用 Luo 等^[4]及 Wan 等^[3]的方法分别进行样本均值和标准差的估算。通过数据分析的结果，帮助读者使用最新的估计量进行 Meta 分析。

在 Meta 分析中，常用的综合统计量有 5 个，即统计中常提及的五数概括法（5-number summary）。为保持叙述的一致性，针对样本量为 n 的数据，我们用下面的字母来分别表示数据的 5 个综合统计量：

在研究报告中，以上综合统计量不一定会全部提供。根据实际情况，我们考虑以下两种最常见情况：

另外，我们用（b–a）代表样本全距（range），（a+b）/2 代表全距中点（mid-range），（q₃–q₁）代表四分位距（interquartile range，IQR）和用（q₁+q₃）/2 代表中枢纽（midhinge 或 mid-quartile range）^[8]。一般来说，样本全距和四分位距常用来估计数据的总体标准差，而全距中点和中枢纽则用来估计总体均值。

值得一提的是，在 Meta 分析中，还有一种不常见的情况，即同时报告了以上 5 个综合统计量，为此 Bland 等^[9]在 2014 年对 Hozo 等^[2]的方法进行了拓展，得到了相应的样本均值和标准差的估计量。Wan 等^[3]与 Luo 等^[4]也在文章中对 Bland 等^[9]的估计方法进行了改良与完善。由于篇幅的原因，本文将不再对此种情况的换算做过多介绍，读者如有兴趣，可自行查阅相关文章。

2 针对 S₁ 的样本均值与标准差估计方法

2.1 Hozo 等^[2]针对 S₁ 的样本均值与标准差估计方法

在中，对于样本量为 n 的均值的估算，Hozo 等^[2]提出了以下公式：

对于标准差，Hozo 等^[2]也提出了与上述公式相似的分段算法：

在上述公式中，和 SD 分别代表样本均值和标准差。以上两个公式是目前最为广泛应用在 Meta 分析中的估算方法。然而，Hozo 等^[2]并没有直接将样本量（n）的信息放入到估计量的计算中，反而是根据样本量大小来将公式分段，这可能使得估计量不够准确，尤其是当样本量靠近分段点时，估计误差较大。

2.2 Wan 等^[3]的样本标准差估计方法

Wan 等^[3]优化了样本标准差的估算方法。他们假设样本数据服从正态分布，从而运用次序统计量的性质进行样本标准差的估算。

假设的样本量为 n，并且服从正态分布。则表示这个样本的次序统计量。为计算简便，他们设样本量为 n=4Q+1，Q≥1 是一个正整数。根据以上假设，五数概括法的综合统计量可以表示为、、、、。另外，Wan 等^[3]在文中将变量表示为，而次序统计量则表示为、。其中，变量服从标准正态分布 N（0，1），而则是其相应的次序统计量。根据以上的设定以及次序统计量的期望值定义^[10]，S₁ 中的样本标准差估计方法为：

其中，是 Blom 等^[11]所提出的服从标准正态分布的次序统计量的期望值的近似方法^[11]。α=0.375 则是 Blom 等^[11]建议的适用于实际运用的参数值。根据这一近似方法，Wan 等^[3]将样本标准差的估计进一步延伸到了 S₂。

2.3 Luo 等^[4]的最优样本均值估计方法

Luo 等^[2]将随着样本量而平缓改变的权重加入到计算中，使得样本均值的估计更加准确。他们沿用了 Wan 等^[3]的变量设定，提出了以下关于样本均值估计的最优方法。

对于 S₁，Luo 等^[4]给全距中点（a+b）/2 和中位数 m 分别赋予了总和为 1 的权重。通过一系列简化后，样本均值的估计量为：

相比 Hozo 等^[2]的估计量，Luo 等^[4]的样本均值估计量由于引入了随着样本量的变化而平稳变化的权重，使得估计量对于实际问题有更强的适应性，因此可更为准确地估算样本均值。

2.4 数据实例演示

为帮助读者更为直观地理解和运用以上估算方法，我们将用一个数据实例进行演示。针对 S₁ 我们节选 Nnoaham 等^[12]于 2008 年发表关于检测感染肺结核的风险与人体中血清维生素 D 水平较低的相互影响的 Meta 分析中的部分数据，进行样本均数与标准差估算的演示，并比较不同估算方法所得的结果。所选数据如下表 1 所示。

表1 血清维生素 D 水平节选数据的基本信息

表选项

下载CSV

序号	纳入研究	例数（T/C）	血清维生素 D 水平^a（T/C，nmol/L）
1	Davies 1985^[13]	40/40	16.00（2.25，74.25）/27.25（9.00，132.50）
2	Grange 1985^[14]	40/38	65.75（43.75，130.50）/69.50（48.50，125.00）
3	Davies 1987^[15]	15/15	39.75（16.75，89.25）/65.50（26.25，114.75）
T：病例组；C：对照组；a：血清维生素 D 水平数据被记录为中位数（最小值，最大值）。

表 1 的数据均符合 S₁，我们运用 Hozo 等^[2]、Wan 等^[3]和 Luo 等^[4]的估算方法分别进行样本均数与标准差的估算。同时，我们还将展示如何使用 Wan 等^[3]和 Luo 等^[4]文中提供的已编译好公式的在线计算器（http://www.comp.hkbu.edu.hk/~xwan/ median2mean.html）进行估算，并对不同方法所得的结果进行比较。

由于在线公式计算器每次只能输入单组的数据，因此考虑到文章篇幅的原因，下图 1 仅展示案例 1，Davis 等^[13]中的 Cases 数据计算结果对比。如图 1 所示，读者只需要在黄色空格内填上对应的信息，然后点“Calculate”按钮就可以得到在当前情况下，运用不同的估计量计算出的样本均数与标准差对应的估计值，方便读者进行对比。从图 1 中我们能清楚地看到，使用 Hozo 等^[2]和 Luo 等^[4]的均数估计方法得出的结果有 4.4 nmol/L 的差异；使用 Hozo 等^[2]、Wan 等^[3]的标准差估计方法所得的结果也有近 2 nmol/L 的差异。而由于 Wan 等^[3]和 Luo 等^[4]均在其文中从理论与模拟实验中均证明了他们的方法比 Hozo 等^[2]的更为精确可信，因此读者在使用在线计算器时，应以 Luo 等^[4]的样本均数估计值及 Wan 等^[3]的标准差估计值为准。

图1 使用在线公式计算器估算的样本均数与标准差

图选项

下载全尺寸图像

下载幻灯片

3 针对 S₂ 的样本均值与标准差估计方法

3.1 Wan 等^[3]的样本标准差估计方法

对于，样本标准差的估计量为：

针对 S₂，Wan 等^[3]提出了相应的样本标准差估计量方法，该方法不仅运用了次序统计量的重要性质，同时包含了样本量的信息，比之前方法更为准确与实用。

3.2 Luo 等^[4]的最优样本均值估计方法

Luo 等^[4]假设中枢纽（q₁+q₃）/2 和中位数 m 分别随着样本量变化而稳定改变，并设定总和为 1 的权重，简化后最终得到以下公式：

3.3 数据实例演示

针对 S₂，我们节选了 Kotani 等^[16]于 2017 年发表的关于腹主动脉瘤患者体内脂蛋白水平含量的 Meta 分析中的部分数据进行样本均数与标准差估算的演示，并比较不同估计方法所得的结果。所选数据如表 2 所示。

表2 腹主动脉瘤患者的脂蛋白 Lp（a）水平节选数据的基本信息

表选项

下载CSV

序号	纳入研究	N（T/C）	脂蛋白 Lp（a）水平^b（T/C，nmol/L）
1	Sofi 2005^[17]	438/438	728（7，9 646）/352 （32，2 481）
2	Galora 2013^[18]	423/423	643（7，6 330）/386 （7，4 977）
3	Franks 1996^[19]	44/244	750（418，1 267）/743 （264，2 099）
T：病例组；C：对照组；b：Lp（a）水平数据被记录为中位数(第一四分位数，第三四分位数）。

表 2 的数据均符合 S₂，我们将运用 Luo 等^[4]和 Wan 等^[3]的估计方法分别进行样本均数与标准差的估算。同样地，我们将展示如何使用原文中提供的在线公式计算器进行估算。

图2 使用在线公式计算器所得的样本均数与标准差估计值

图选项

下载全尺寸图像

下载幻灯片

与上一章节相同，由于在线公式计算器每次只能输入单组数据，且考虑到文章篇幅的原因，下图 2 仅展示案例 1，Sofi 等^[17]中的 Cases 数据计算结果对比。与上一情况相似，读者只需要在图 2 所示的黄色空格内填上需要转换的信息，然后点“Calculate”按钮就可以马上样本均数与标准差的估计值。由于 S₂ 目前只有 Luo 等^[4]与 Wan 等^[3]分别提出了样本均数和标准差的相应估计量，因此在线公式计算器并未提供其他估计量用作对比。

值得一提的是，Wan 等^[3]和 Luo 等^[4]不只推出了更新、更准确的估算方法，他们分别在文中提供了带有计算公式的 Excel 表格和相应的在线公式计算器，方便读者随时使用。同时，Excel 表格与在线计算器都包含了每一情况下的旧估算方法和新估算方法得出的结果，读者在使用同时还可以自行比对。

4 数据分析案例

针对样本均值与标准差估算方法，为让读者能更清楚地针对实际情况采用相应的估计量，我们选用一组真实数据，运用 Luo 等^[4]和 Wan 等^[3]的估计量分别进行样本均值与标准差的转换估算，并进行简单的 Meta 分析。数据介绍与估算结果均记录在表 3 中，Meta 分析的森林图则见图 3。

4.1 数据介绍

所用数据节选至 Rocha 等^[7]于 2016 年发表的关于植物甾醇对炎症标记物影响的 Meta 分析。原文中作者提取了来自 20 个 RCT 的数据，每一个研究均报告了基线值和随访的最终值。我们只节选了其中的 10 个 RCT 的随访最终值的数据进行计算。所选数据如下表 3 所示。其中共有 5 组数据需要进行样本均值与标准查的转换：数据 1^[20]、5^[24]报告的是样本中位数、最大值与最小值，符合 S₁ 的情况；数据 2^[21]、3^[22]、4^[23]提供的是中位数、第一与第三四分位数，符合 S₂ 的情况。表 3 中的样本均值与标准差分别由 Luo 等^[4]提出的公式（4）、（6）和 Wan 等^[3]提出的公式（3）、（5）计算所得。

表3 随访终期血浆 CRP 水平节选数据的基本信息及估算结果

表选项

下载CSV

序号	纳入研究	N（T/C）	随访终期血浆 CRP 水平（T/C）
1	Gagliardi 2010^[20]	19/16	3（1，17）/2（1，10）^b	4.83±4.33/3.17±2.54
2	Devaraj 2006^[21]	36/36	1.5（0.20，3.90）/1.9（0.40，4.20）^a	1.89±2.86/2.18±2.93
3	Devaraj 2004^[22]	36/36	1.11（0.20，3.10）/1.7（0.40，4.10）^a	1.49±2.24/2.09±2.86
4	Hansel 2007^[23]	95/96	0.9（0.50，1.90）/1.0（0.60，1.90）^a	1.11±1.05/1.18±0.98
5	Sialvera 2012^[24]	53/55	2（1, 4）/2（1, 4）^b	2.35±2.29/2.35±2.28
6	Athyros 2011^[25]	50/50	1.80±0.50/2.30±0.60	-
7	Bañuls 2010^[26]	20/20	2.40±2.80/2.50±2.10	-
8	Clifton 2008^[27]	37/39	2.40±2.00/3.80±6.00	-
9	de Jong 2008^[28]	15/11	2.30±2.20/1.80±1.70	-
10	Hallikainen 2006^[29]	39/37	1.50±1.20/1.30±1.20	-
T：病例组；C：对照组；a：血浆 CRP 水平数据被记录为样本均值±标准差，中位数（第一四分位数，第三四分位数）；b：血浆 CRP 水平数据被记录为中位数（最小值，最大值）。

4.2 Meta 分析结果

根据表 3 所提供的数据，我们绘制了森林图（图 3）。总体看来，所选的 10 个研究间异质性较高（I²=56%，P=0.01）。总体均数差为负值，且处于较低效应的范围[MD=–0.12，95%CI（–0.34，0.10）]^[30]。也就是说，在随访终期，血浆 CRP 水平值会稍有降低。对于每一组案例，Athyros 等^[25]的均数差最小且处于较高负面效应的范围；而 Gagliardi 等^[20]的均数差最大，处于中等正面效应的范围。由于大部分所选案例都得出负值的效应，总体效应相对较小且为负面效应也是合理的。但纳入研究仍然有效应量为正数的情况，因此所得结论的可信度还需要进一步的研究分析，此处仅做计算示范，将不再详细讨论。

图3 植物甾醇对炎症标记物的影响的 Meta 分析结果

图选项

下载全尺寸图像

下载幻灯片

5 结论

Meta 分析是循证医学分析中的常用方法。在运用 Meta 分析去判断某种药物或治疗方法是否有效时，需综合多个相似研究中所报告的样本均值与标准差来计算该种药物或者治疗方法的效应量。然而，在许多医学研究中只提供样本中位数、最小值与最大值、第一和第三四分位点这5个综合统计量或者其中一部分。因此，要进一步计算 Meta 分析的效应量，研究者需要先将综合统计量转化为样本均值与标准差。目前，针对这一问题所提出的样本均值与标准差的估计方法只有少数几种，其中最为广泛使用的是 Hozo 等^[2]在 2005 年所提出的使用样本中位数、最大值和最小值的样本均值与标准差的估计量，至 2014 年，Bland^[9]才在 Hozo 等^[2]的基础上提出了新估计方法，但也仅将 Hozo 等^[2]的方法延用到5个综合统计量都提供情况。然而，Hozo 等^[2]和 Bland^[9]的估计方法有很大的缺陷，那就是并没有使用到样本量信息。在两者基础上，Wan 等^[3]在 2014 年针对 3 种医学报告常见的情况，运用次序统计量，大大改良了样本标准差的估计量。之后，Luo 等^[4]沿用 Wan 等^[3]的变量设定，优化并完善了三种常见情况的样本均值估计量。

在本文中，我们主要针对循证医学中最为常见的两种情况，只提供样本中位数、最小值和最大值；或只提供样本中位数、第一和第三四分位数，节选了 Nnoaham 等^[12]关于检测感染肺结核的风险与人体中血清维生素 D 水平较低的相互影响的 Meta 分析中的部分数据，及 Kotani 等^[16]关于腹主动脉瘤患者体内脂蛋白水平含量的 Meta 分析中的部分数据，使用 Luo 等^[4]和 Wan^[3]等提供的在线公式计算器对其进行样本均数和标准差的估算演示，以让读者更清晰地理解如何运用本文中介绍的方法。而对于 5 个综合统计量都提供的情况，本文没有进行介绍，有兴趣的读者可自行阅读相关的文章。另外，本文还使用了 Rocha 等^[7]文中关于植物甾醇对炎症标记物影响的 Meta 分析中所使用的部分数据作示例，运用 Luo 等^[4]和 Wan^[3]估计方法分别进行样本均值和标准差的转化，并对其结果进行简单分析。

综上，本文对 2005 年至今关于样本均值与标准差的估计方法的最新进展进行了系统地回顾，运用实际数据进行示范，旨在让研究学者们可根据实际情况估算出均数和标准差，完成 Meta 分析。

1 数学符号定义

在研究报告中，以上综合统计量不一定会全部提供。根据实际情况，我们考虑以下两种最常见情况：