- 数据思维:让大脑更清醒(套装共4册)
- (日)中室牧子 津川友介 柏木吉基 矢野和男 (美)加里·史密斯
- 1685字
- 2021-04-02 00:12:45
判断因果关系的三个要点
判断两个变量属于因果关系还是相关关系时,可以通过以下三个问题进行质疑。
①是否“纯属巧合”?
②是否存在“第三变量”?
③是否存在“逆向因果关系”?
①是否“纯属巧合”?
如果有人提出“温室效应的加剧导致海盗数量下降”,大家肯定觉得荒唐,但如图表1-2所示,温室效应逐渐加剧的同时,海盗数量确实在不断减少。
图表1-2 温室效应加剧会导致海盗数量下降吗?——纯属巧合
(数据来源)本图表由笔者根据福布斯网站(http://www.forbes.com/sites/rikaandersen/2012/03/23/true-fact-the-lack-of-pirates-is-causing-global-warming/#1606f14ca231)的数据制作而成。
可是,按常理来说,很难想象温室效应的加剧会导致海盗数量下降。两个事件看似有关,其实只是“纯属巧合”。像这样,两个变量的变化趋势只是碰巧相似的现象被称为“伪相关”。
美国信息分析员泰勒·维根(Tyler Vigen)在其著作《伪相关》(Spurious Correlations)中介绍了很多“纯属巧合”的事例。例如,“尼古拉斯·凯奇一年参演电影的部数”与“泳池溺亡人数”(见图表1-3)、“美国小姐的年龄”与“因取暖设备丧命的人数”(见图表1-4)、“商业街的总收入”与“在美国获得计算机科学博士学位的人数”(见图表1-5)等之间都存在高度的相关关系。
图表1-3 尼古拉斯·凯奇一年参演电影的部数与泳池溺亡人数
图表1-4 美国小姐的年龄与因取暖设备丧命的人数
图表1-5 商业街的总收入与在美国获得计算机科学博士学位的人数
(数据来源)泰勒·维根网站:http://tylervigen.com/spurious-correlations.
这些例子看似非常荒唐,但不可思议的是,把两个变量做成图表比对一下就会显示出明显的相关关系。正好比“蝴蝶在亚洲扇动翅膀,南美就会刮起飓风”,不过需要留意的是,我们身边其实存在很多这种“纯属巧合”的相关关系。
或许你会怀疑,真的会有人把伪相关当作因果关系吗?实际上,不少预测大盘的人都会相信纯属巧合的伪相关,把它们当作没有依据却非常灵验的经验之谈。
例如可能有人听说过“吉卜力的诅咒”。即只要日本的电视台播出宫崎骏导演领导的吉卜力工作室的电影,美国股市就会下跌。就连美国的《华尔街时报》也曾报道过这条法则并一度引起热议。这条法则正是“纯属巧合”造就的典型的伪相关。
探讨“是否存在因果关系”时,一定要先质疑两个变量之间的关系是否纯属巧合。
②是否存在“第三变量”?
其次,我们必须要质疑是否存在同时影响原因和结果的“第三变量”。用术语说就是“混杂因素”,它可以把纯粹的相关关系包装成因果关系,干扰人们判断。
我们来看一则混杂因素的具体事例。前言中曾经提到这个说法:体力好的孩子学习能力强。可能一些家长看到这种说法,就打算让孩子去锻炼身体。
然而,断定体力与学习能力之间存在因果关系还为时过早。说不定另有一个变量同时影响着孩子的体力和学习能力。(见图表1-6)比如“父母对教育的热衷程度”等。热衷教育的父母可能会让孩子学习运动项目或者注重饮食健康(对体力产生影响),同时还会督促孩子学习,因此孩子的学习能力也比较强(对学力产生影响)。这则事例中,提高孩子学习能力的不是体力,而是“父母对教育的热衷程度”。如果事实果真如此,那么一味增强孩子的体力,恐怕不会提高他们的学习能力。
图表1-6 “混杂因素”把相关关系包装成因果关系
探讨“是否存在因果关系”时,切记还要质疑是否存在同时影响原因和结果的“混杂因素”。
③是否存在“逆向因果关系”?
接下来需要质疑是否存在“逆向因果关系”。例如,我们来思考警察与犯罪的关系。警察多的地区,犯罪案件数量也多。但是,将警察多视为犯罪案件数量多的原因难免有些牵强(警察→犯罪)。
不如说因为某处是犯罪多发的危险地区,所以部署了大量警力,这么想可能才更合理(犯罪→警察)。本以为是原因的事件其实是结果,本以为是结果的事件其实却是原因,这种状态被称为“逆向因果关系”。探讨“是否存在因果关系”时,还要质疑原因与结果的方向是否相反。
让我们对照图表1-7对上述说明加以总结。
如果两个变量之间存在因果关系,当原因再次出现时,相同的结果也会出现,而不存在“纯属巧合”“混杂因素”或“逆向因果关系”。另一方面,如果两个变量的关系只是相关关系,那么就会存在“纯属巧合”“混杂因素”或“逆向因果关系”中的某一种情况。在相关关系的情况下,即使原因再次发生,也几乎不会得到相同的结果。
图表1-7 因果关系与相关关系的总结