p 值操控

当然,有人对 值的理解并不充分,但也有人对它的理解过于充分,从中看到了在“不发表就完蛋”(publish or perish)的信条统治学术界的时代里,助推自己职业生涯的机会。然而,要发表论文,往往必须(或者说只需要)获得小于 5% 这个阈值的 值。不正确的理论不太可能得到这样的 值,但可能性也没那么低。如果我们希望否定某个正确的理论,根据 值的定义,获得这样的 值的概率实际上就是 5%。也就是说,平均每 20 次实验中就有一次能得到可以发表的 值!换句话说,只要多做实验,就能得到有资格在科学期刊上发表的结果。这就是所谓的 值操控

兰道尔·门罗的漫画《显著》就绝妙地描绘了 值操控的危害。门罗想象有人怀疑某种糖豆会引发青春痘,科学家对此进行了实验,得到的结论是“糖豆不会引发青春痘”这个理论 对应的 值大于 5%。也就是说,实验无法否定理论 。到这里一切都还好。

但又有另一个流言说,实际上只有某种颜色的糖豆会引发青春痘,但糖豆一共有 20 种颜色,所以需要进行 20 个独立的实验。不出意外,其中一个实验得出了小于 5% 的 值。这就足以否定“绿色糖豆不会引发青春痘”这个假设。第二天的报纸上就头条登载——科学证明绿色糖豆会引发青春痘!

从全世界的科学实践层面上来说,独立实验的数量远远大于 20,所以那些唯恐天下不乱的报刊总能找到数以千计的令人震惊的科研论文来报道。这些论文大部分最后会被其他论文否定,甚至被作者撤回,这也不奇怪。

除了重复实验以外,还有一种方法能同样有效地得到可发表的结果:只需不断积累实验数据,直到足以得出想要的结论。奇怪的是,人们已经证明了,只要不断积累实验数据 4,直到能够得出能否定这个理论的结果,我们就可以用 值否定任何理论。也可以说,如果你的数据还不足以否定要检验的理论,只要继续收集更多数据,你最终总可以否定它。

4然而,能否定某个假设所需的数据量一般来说呈指数增长。话虽如此,乔哈里、派莱基斯和沃尔什证明了,额外数据只需要达到某个合理的量级,否定假设的概率就会大幅增长。

你看到问题了吗?一旦选择好什么时候停止实验,我们就引入了巨大的选择偏差。如果你的论文没有说明如何确定采集数据的数量,那么其他人就无法指责这一点,除非这个方法可以被逆推出来。这样,你的论文就符合 值“科学方法”的规范。然而不幸的是,持续采集数据,直到得到能证明结论的统计结果,这种做法非常普遍 5……

5乔哈里和合作者提出了 值的一种变体来弥补这一点。

有人就此提出要降低 值的阈值,但即使是在阈值取到极端的 0.000 03% 的物理学中,问题仍然存在。统计分析造成的假象和重复实验,导致了 2003 年五夸克态的“发现”,其他独立实验通过摆弄数据也验证了这个“发现”,但最后科学共同体还是否定了它,因为原始实验的结果无法重复 6。使用 值的“科学方法”中的随机性令人们认真地质疑起科学结论的可靠性。如果你想要知道更多信息,我只能向你推荐两个关于这场争论的简述:博客 Science Étonnante 中的一篇文章 [7] 和 Veritasium 的视频 [8]

6五夸克态在 2015 年似乎最终真正被发现了。