- 贝叶斯的博弈:数学、思维与人工智能
- (法)黄黎原
- 2756字
- 2022-08-08 15:41:38
拉普拉斯接续法则
现在我们先讨论拉普拉斯 1774 年的文章中最巧妙的计算之一。为了展示他关于逆概率的理论,拉普拉斯引入了一个例子,其中有一个罐子,里边有大量白色和黑色纸条。这个例子实际上与贝叶斯提出的那个问题非常相似——学数学的人会说,这两个问题是同构的。假设罐中白色纸条的比例是未知的,拉普拉斯从罐中随机抽取了一张纸条 1,那张纸条是白色的。我们可以对罐中白色纸条的比例有什么想法?如何解释抽取的纸条是白色的?抽出一张白色纸条的原因是什么?
1根据下文,这里抽取出的纸条应该放回罐子,以保持白色纸条的比例不变。——译者注
频率主义的斗士费希尔很可能就会举手投降,说这个问题毫无意义。对费希尔来说,这是一个非统计学、非科学的问题,甚至是一个没有意义的问题。
拉普拉斯可不这样想,他提出了一个聪明的想法,就是以抽纸条之前对白色纸条的比例的偏见为出发点。拉普拉斯进行了先验的假设,认为白色纸条的比例是 0 和 1 之间的一个(均匀分布的)随机数。要注意到,拉普拉斯的这一随机变量并不代表真实的不确定性,而是代表了他(主观上的)无知。
无论如何,拉普拉斯之后进行了贝叶斯式的推理,目的是根据抽出纸条的颜色来更新他的偏见。在应用贝叶斯公式(其实是拉普拉斯自己的公式)之后,拉普拉斯得出了这样的结论:白色纸条的后验比例仍然是一个在 0 和 1 之间的随机数。但如果要预测从罐中抽出的下一张纸条的颜色,那么他会向白色这个可能性赋予 2/3 的概率。
在更一般的情况下,如果之前已经抽取出 张白纸条和 张黑纸条的话,对于下一张从罐中抽出的纸条,拉普拉斯会向“它是白色的”这个可能性赋予 的概率。这就是拉普拉斯接续法则,可以由贝叶斯公式推导出来。
不巧的是,我在本书中无法展开叙述拉普拉斯的贝叶斯式计算需要的分析工具,但我强烈建议有兴趣的人去看看他写于 1774 年的那篇文章第 30 页中的问题 1,该文章可以在互联网上免费获取。
拉普拉斯的天才之处在于结合了两种随机性:抽取纸条的随机性,以及为拉普拉斯对白色纸条比例的无知而建模的随机性。如果与拉普拉斯同时代的人肯花时间理解他对这个问题的解答中的精妙之处,科学与科学哲学的历史可能会出现又一个转折点。
比如说,拉普拉斯的接续法则使他最终能回答休谟的问题:已知连续 天太阳照常升起,我们能否相信明天太阳仍会升起?
如果把每一天看成一张纸条,黑色纸条对应太阳升起,白色纸条对应太阳没有升起,那么有 以及 。所以,假如应用拉普拉斯的贝叶斯理论的话,我们就可以根据这些数据预言明天太阳不会升起的概率等于 。
拉普拉斯援引《圣经》,选择了相当于 5000 年的天数作为 值,这让他得出明天太阳不会升起的概率大概是一百万分之一。面对这个荒唐的结果,拉普拉斯立刻补充道:“考虑到在世界万事中存在司掌昼夜与季节的原则,且尚没有任何事物能阻碍其运转,这个数目(一百万分之一)还是太大了。”贝叶斯主义者在细化预测结果时,应该考虑自己的所有知识。
不巧的是,尽管写出了这样的评注,拉普拉斯的预测仍然引来了暴风骤雨般的批评。这个预测惹来了一遍又一遍的嘲笑,这让很多人对拉普拉斯的概率理论嗤之以鼻。拉普拉斯这个不幸的预测可能是贝叶斯主义在之后两个世纪式微的主要原因。然而奇怪的是,依照现在的知识来看,拉普拉斯的公式实际上准确得惊人!
首先,我们必须修正拉普拉斯的 值。今天,我们知道了太阳每天升起已经持续了大约 50 亿年。这样的话,拉普拉斯的公式就告诉我们,太阳明天不会升起的概率大概是两万亿分之一。特别是,我们其实也预测了太阳在数十亿年后就不会再升起了。然而令人饶有兴味的是,天体物理学家今天也告诉我们,太阳在 50 亿年后会变成红巨星,膨胀到把地球吞噬。即使并非出于太阳向红巨星转变的原因,拉斯卡尔的模拟也指出,地球这颗蓝色行星最终会在数十亿年后脱离轨道。真是不可思议!现代物理学给了我们两个认为拉普拉斯的预测正确的理由!
有人可能认为这是一个无法解释的神奇巧合。这毋庸置疑就是运气,因为拉普拉斯的预测本质上是概率性的——什么都可能发生!另外,如果将同样的推理应用到宇宙未来是否会消失这个问题上,那么最终似乎会失败 2。雪上加霜的是,我在这里的阐释也不完全符合贝叶斯主义 3。然而,这个巧合其实并不像人们朴素的想象那么神奇。想象一下,我们现在希望根据某人的年龄预测他的寿命。拉普拉斯的方法 4 得出的预测就是,这个人接下来还能活上和他目前年龄一样的年数。当然,如果这个人是新生儿或老人,那么这种预测就很有问题了。然而,这不太可能发生。在绝大部分情况下,我们碰到的是 20 岁和 60 岁之间的人,由此预测的人类寿命大概在 40 岁和 120 岁之间。
2考德威尔、卡米翁科夫斯基和温伯格在 2003 年的一篇题为《幻影能量与宇宙末日》(“Phantom Energy and Cosmic Doomsday”)的论文中,正好预言了我们的宇宙在 22 亿年后会发生“大撕裂”,这再次符合了拉普拉斯的预测!
3这里涉及的是后验平均值,也就是说,所有对未来的预测都基于平均后验概率。与之相对,纯粹贝叶斯主义者会将所有关于太阳明天会消失的可信的后验概率进行积分,这会得到太阳寿命的数学期望无限大的结论。然而,数学期望并不能很好地概括纯粹贝叶斯主义者的后验置信度。这样的话,纯粹贝叶斯主义者的后验中位数恰好与平均后验概率期望值处于同一数量级。用数学语言来说,如果我们假设太阳某天消失的概率是 ,并将太阳的寿命记作 的话,我们计算的就是 。真正的贝叶斯数学期望是 ,而贝叶斯中位数是使得 的 的值。
4实际上,拉普拉斯希望计算的只是太阳明天没有升起的概率,而不是太阳的预期寿命。
更妙的是,假设人类寿命等于 100 岁,而各年龄段在总人口中的占比不相上下,那么概率计算给出的结果就是,人类预期寿命的平均预测结果刚好是 100 岁 5 !
5的确,如果设 ,而令 为随机选取的某个人的年龄,那么对预期寿命的预测就是 ,然后对所有 的值进行积分就能得到预测的平均值。我们会得到 。
这个神秘的现象被作家艾伯特·戈德曼称为林迪效应,后来数学家伯努瓦·曼德尔布罗和统计学家纳齐姆·塔利布也沿用了这一名称,这个名字源自一个叫作林迪(Lindy's)的餐馆,喜剧演员经常在那里讨论怎样才能在演艺界坚持更长的时间。戈德曼注意到,某位喜剧演员之后出现在餐馆的次数与他已经出现过的次数成正比。曼德尔布罗补充道:“无论某人已产生的工作量有多少,日后其工作会增加同样的工作量。”然后塔利布对这个经验观察结果做出了解释,他在这里用的是所谓的幂律,它无处不在,比如令人惊异的齐普夫定律(Zipf's law)就是其中一例。它预言了在一篇文章中出现频率排第 位的字母,其出现频率大概就是出现频率最高的字母的 分之一 [2]。
拉普拉斯的接续法则有着无比惊人的大量的实际应用,其中之一就是让人们在第二次世界大战中根据俘获的纳粹坦克的序列号,推断出坦克的总数 6。[3]
6拉普拉斯接续法则也出现在了所谓的末日论证中,Monsieur Phi 和我在相关视频中对此进行了讨论,详见书后注释。