反对 p 值的统计学家

并不是只有纯粹贝叶斯主义者在攻击波普尔和频率主义者。最近, 值在统计学家中也风评甚差。这种恶评的原因之一就是只有得出结论的结果才能发表而导致的选择偏差。更糟糕的是,人们越来越常使用所谓的 值操控的策略,我们之后会再谈到这一点。无论出于什么原因,在已发表的论文中,错误泛滥成灾,瓦伦·约翰逊估计至少 25% 的论文有问题。

实际上,科学结论中出现的错误肯定要比这个估计值多得多,特别是在同样考虑那些无关统计学的错误时。计算机科学家莱斯利·兰波特甚至提出,即使是通过评审委员会的评审后发布的数学论文,三篇中也有一篇至少包含一个错误的定理 [5]

更惊人的是,如果认真考虑 值的话,那么我们最终就必然否定所有科学理论,包括那些正确的理论。的确,如果相信大部分科学方法的描述的话,所有理论都应该接受一次又一次的测试。然而,如果阈值设为 0.000 03%,那么每次实验都有 0.000 03% 的概率否定它测试的正确理论。实际上显然的是,如果我们的科学理论仍然屹立不倒,那只是因为它还没有被充分测试过。但如果我们不停测试这些理论,那么终有一天会迎来对它们的否证,在劫难逃。这不是很奇怪吗?科学方法必然会否定所有正确的理论 3 !随着时间流逝,统计学家对此变得越来越激进。在 2010 年,汤姆·西格弗里德解释了他为什么不信任科学论文,他断言:“这就是科学中最黑暗却又无人承认的秘密:通过统计分析来检验假设的所谓‘科学方法’,竟然建立在如此薄弱的根基上。”在 2014 年,雷吉娜·努佐也说:“(问题)来自 值那具有惊人欺骗性的本质,它没有大部分科学家认为的那么可靠、客观。”

3如果阈值是 5%,那么大约(仅需!)20 次实验就能否定某个正确的理论。如果阈值是 1%,那就需要大约 100 次实验。

众多统计学家建立在统计学基础上的激烈批评在 2016 年达到高峰,汇聚成了美国统计学会的一份公告 [6] :“统计学家集体对科学结论的可再现性与可重复性感到非常忧心。我们在这里不深入这些术语的定义和区分,但我们观察到,出现了大量对科学有效性的困惑甚至疑虑。这样的疑虑可能会导致激进的决定,比如说《基础与应用社会心理学》的编辑就决定禁止使用 值。(……)对统计推断的误解与误用只是‘可重复性危机’的原因之一,但对于我们这个群体而言,这是一个重要原因。”