辛普森悖论(Simpson’s Paradox)是统计学上一个很重要的概念。在谈论这个概念之前,我们先聊聊日常生活中可能会碰到的一些问题。

如果你家里有老人生病了,需要做某一项手术,你会如何选择医院?

假设你所在市内有 A、B 两家医院,这两家医院的手术都做得符合基本规范、术后存活者的生活质量相同、两家医院收费统一,甚至离你家的距离都一样近。而且它们都非常开放,愿意将所有治疗数据向社会公布。

网上搜索结果显示,A 院近期有 1000 名患者接受这项手术,术后 900 人存活(总存活率 90%);B 院近期有 1000 名患者也做了同样的手术,术后 800 人存活(总存活率 80%)。

你怎么选?

从上面的数据来看,患者总存活率 90% 的 A 院似乎医疗安全性更佳,是就医更加理性的选择。

然而在某些情况下,当你仔细查看两个医院的数据,你可能会惊讶地发现,真实的数据和你想象的并不一样——总存活率更低的 B 院可能是更好的选择。

【1. 数据的「诡计」:辛普森悖论】

在大数据时代,大家越来越清楚数据的重要性,现在不少媒体或者自媒体的文章也经常洋洋洒洒列举一堆数据。数据自然可贵,我们人生中很多决策往往就基于我们认为可靠的数据。

-比如高中生想考大学,他们和父母会先了解某个大学在本省历年来的招生人数;

-比如应届毕业生想找一份工作,他们往往会上网查查某个职位的平均薪酬;

-比如年轻的情侣想在大城市买一套婚房,他们也许会花很多时间去了解本市某个版块最近几年的房价变化。

数据确实很重要,但数据有时候也会骗人。

「辛普森悖论」由英国统计学家 E.H.Simpson 于 1951 年提出,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。

简单来说,在一组统计数据背后存在某些潜在变量(Lurking variable),这些潜在变量会彻底改变结论。

这句话可能还是不太好理解。让我们再回到上面那个「选医院」的问题,这个例子来自 TED 的其中一期演讲。

大家要记住一点,并不是每个医院所接受的患者病情轻重程度都相同。因此,让我们将患者按照病情轻重度进行分组后,再来看看两家医院的救治情况(图1)。

A 院收到的 1000 名患者中,有 100 名重症患者,做完手术后只有 30 人存活,重症患者存活率为 30%;

B 院收到的 1000 患者中,有 400 名重症患者,做完手术后有 210 人存活,重症患者存活率为 52.5%。

因此对于重症患者来说,B 院是更好的选择。

我们再看一下轻症患者。

A 院收到的 1000 患者中,有 900 名轻症患者,做完手术后有 870 人存活,轻症患者存活率为 96.7%;

B 院收到的 1000 患者中,有 600 名轻症患者,做完手术后有 590 人存活,轻症患者存活率为 98.3%。

所以对于轻症患者来说,B 院也是更好的选择。

因此,虽然 A 院的患者总体存活率高于 B 院,但实际上,无论是轻症患者存活率还是重症患者存活率,A 院都不如 B 院。

为什么会出现这种情况?

这是因为两家医院所收治的轻重症患者比例有巨大差异,在不进行任何治疗的情况下,轻症患者的存活率显然比重症患者高。而 A 院的患者总存活率恰恰就是被大量轻症患者稀释了,从而给人造成了「A 院水平比 B 院更高」的假象。

在这个案例中,潜在变量就是不同医院轻重症患者的比例——这就是一例典型的「辛普森悖论」,而这种悖论很可能会导致人们做出错误决策。

A 院和 B 院是虚拟的例子,现实中其实也常有真实发生的案例,我在医学院读本科时就已经听闻过类似的情况。

当时广州有个医院到处宣传本院 SARS 期间零死亡,后来我们上课时,有教授就悠悠地说,这个医院之所以能实现零死亡,主要是因为当时广州最重的 SARS 患者都被广医一附院(呼研所)给收了。

【2. 咖啡有害论与被「坑」的 NEJM】

不仅我们普通老百姓可能被辛普森悖论欺骗,甚至连顶级期刊 NEJM(新英格兰医学杂志)都曾经被带进过坑里,这个案例就是所谓的「咖啡有害论」。

上世纪八十年代,哈佛大学公卫学院院长 Brian MacMahon 研究发现「喝咖啡和胰腺癌存在密切关系」。研究人员对患有胰腺癌的住院患者和患有其他消化道疾病的住院患者进行比较后,发现胰腺癌患者中喝咖啡的比例明显更高。

研究人员认为,如果人们停止喝咖啡,胰腺癌发病率可能会极大降低。院长 MacMahon 本人甚至亲力亲为,在开展这项研究之前他每天喝 3 杯咖啡,研究之后他直接戒掉了咖啡。

然而,这个研究很快被发现存在一个重大的缺陷。

在研究对象中,许多没有患癌的住院病人会主动放弃喝咖啡,因为他们担心咖啡会使溃疡和其他肠胃问题恶化,但患胰腺癌的病人并没有停止,这就使得胰腺癌患者中喝咖啡的比例更高。

因此,不是咖啡导致了胰腺癌,而是其他疾病导致了其他人不再喝咖啡。

在后来美国癌症协会的研究中发现,咖啡与胰腺癌、乳腺癌或其他癌症风险并没有关联,喝咖啡似乎还能降低胰腺癌风险——至少是对于男性而言。

2012 年,同样是发表在 NEJM 上的一项研究发现,针对 13 年里 40 万人的跟踪发现,在排除了吸烟、喝酒、锻炼等混杂因素后,与不喝咖啡的人相比,每天喝一杯咖啡的人在各个年龄段去世的概率都会下降 5~6 个百分点——但需要强调的是,我们仍然不清楚两者(咖啡和死亡率)之间是因果关系还是相关性。

我们再举一个大家比较关心的例子——工资,这是美国曾真实发生的情况。

2000~2013 年,美国人的周薪中位数(下面简称工资)上升了 0.9%。这听起来好像是个好消息,但真实情况是,各个学历的人工资全都下降了。

-高中以下的工资下降 7.9%

-高中毕业生的工资下降 4.7%

-大学肄业生的工资下降 7.6%

-而大学毕业生的工资下降 1.2%

所以,大家的工资明明都下降了,为什么总的工资会上升?如果不了解具体情况,估计有人会说统计造假。

实际上,这里的「辛普森悖论」,是由两个因素决定的。

第一,随着学历上升,工资水平也会提高。这个大家应该很容易理解,知识改变命运嘛,不然读书作甚?

第二,美国大学毕业生比以前多得多,而高中及以下学历的比例在下降。

因此,由于高学历人群在就业人口中的比重上升,带动整体的工资中位数上升,虽然这部分人群连同其他人群的实际收入是下降的。在这个案例当中,那个狡猾的「潜在变量」就是不同学历人群的比例。

此外,真实世界中还有很多辛普森悖论的真实案例。在 Gary Smith 所著的《简单统计学》第 7 章中,就专门举了一些辛普森悖论的真实例子,例如:

-阿拉斯加航空公司在 5 个不同机场都拥有优于另一家航空公司的准点运行记录,但其总体准点记录却不如竞争对手,为什么?

——因为阿拉斯加航空有很多飞往西雅图的航班,而西雅图的天气问题经常导致飞机延误。

-上世纪八十年代的一项医学研究发现,开放式的取石手术(图2 Treatment A)对于小型和大型肾结石的治疗成功率,均高于微创的经皮肾镜取石术(图2 Treatment B),但其总体成功率却不如后者,为什么?

——因为开放式的取石手术经常被用于治疗大型肾结石,而大型肾结石的治疗成功率本身就相对较低。

举了这么多例子,大家应该可以理解基本辛普森悖论是怎么来的了,也知道数据分组中的潜在变量,可能导致最终出现截然相反的结论。

【3. 新冠病死率里也有「玄机」】

最后,让我们带着前面的思考,来一起看看一个最近关注度颇高的问题——新冠肺炎病死率。

2020年 5 月 16 日,预印本论文平台 arXiv 上发表了一篇论文 「Simpson`s Paradox in Covid-19 case fatality rates: a mediation analysis of age-related causal effects」,发现在中意两国的新冠肺炎病死率上,同样观察到辛普森悖论。

研究人员统计了中国和意大利两国的新冠肺炎病死率,中国的数据是截至 2 月 17 日的 72314 例病例,意大利的数据是截至 3 月 9 日的 8342 例病例。

结果发现,虽然中国每个年龄段的病死率都比意大利高,但是中国总体的病死率却比意大利低(图3)。

如果只看这个结论的话,估计又有人要说数据造假了。但是你已经看过了上面的医院和工资案例,你可能会猜到背后的原因

——中意两国患病年龄不同。

实际上,无论在哪个国家,我们都发现新冠肺炎病死率随着年龄增长而大幅升高,新冠肺炎对于老年人的威胁远大于年轻人。

意大利人口的平均年龄是 45.4 岁,中国则是 38.4 岁。意大利实际上是一个老龄化非常严重的国家,老龄化程度位居全球第二,仅次于日本。中国新冠肺炎患者年龄段主要集中在 30~59 岁这个区间,而意大利的患者则多在 60 岁以上(图4)。

这也就解释了为什么按照年龄组划分的死亡率与总体死亡率之间的矛盾,从而导致数据上出现辛普森悖论。

当然,在这项研究当中,科研人员还讨论了别的因素,虽然年龄是最主要的潜在变量,实际上各国的防控策略、性别、经济状况和饮食习惯等变量都会影响最终的数据。

另外,由于彼时(3 月 9 日)还是意大利疫情的初期,而新冠肺炎的病程需要一至数周时间,3 月初的数据并不能完全反映真实情况。在后来的数据(截至 5月 7 日)中,由于医疗系统被击穿等原因,意大利的死亡率大幅上升(图5),50 岁以上几个年龄段的死亡率都超过了中国。

就像上面说的,辛普森悖论可能导致人们做出错误的决策,因为很多人常常只看整体数据而不看分组数据(或者相反),很少会仔细地同时分析整体和分组数据。

这可能是因为专业性不够,也可能是因为没有那么多时间精力,还可能是因为,我们往往只愿意相信我们认为是对的,然后想方设法选择证据证明自己的观点。

以上就是关于辛普森悖论的内容了。大家在明白这个悖论后,以后就会少陷入那些有意或者无意的统计学陷阱。

愿你能更准确地看清这个世界。

【原文写于2020年】

 #庄医生的疫情笔记##微博新知博主#

重 症 数
重 症 存 活 数
重 症 存 活 率
轻 症 数
轻 症 存 活 数
轻 症 存 活 率
总 人 数
总 存 活 数
总 存 活 率
100
30
30 %
900
870
96 . 7 %
1000
900
90 %
BF
400
210
52 . 5 %
600
590
98 . 3 %
1000
800
80 %

reatment
Stone ize
Treatment A
Group 1
Small stones
93% (81/87)
Large stones
Both
Group 3
73%
(192/263)
78%
(273/350)
Treatment B
Group 2
87 %
(234/270)
Group 4
69% (55/80)
83%
(289/350)

Case fatality rates (CFRs) by age group
China, 17 February
14
Italy, 9 March
12
10
0-9
10-19 20-29 30-39 40-49 50-59 60-69 70-79
Age
Total

Proportion of confirmed cases by age group
China, 17 February
Italy, 9 March
20
15
10
5
0-9
10-19
20-29 30-39 40-49
50-59
60-69
70-79
80+

30
25
20
15
10
5
Case fatality rates (CFRs) by age group
Italy, 9 March
Italy,
12 March
Italy,
19 March
Italy,
23 March
Italy, 26 March
Italy, 2 April
Italy,
9 April
Italy,
16 April
Italy,
23 April
Italy,
28 April
Italy,
7 May
0-9
10-19 20-29 30-39 40-49 50-59 60-69 70-79 80+
Age
Figure 8: Different snapshofÜ9f C FRst)t! age group in Italy over time.