对实用的追求

所罗门诺夫令我赞叹,同时又让我感到绝望。他的理论稳固地建立在计算机科学与概率论最基本的概念之上。所罗门诺夫的构造自然得不可思议。我的意思是,这正是我在长期思考贝叶斯主义时就开始考虑到的,如果我思考的时间足够长,而且拥有足够的认知能力,那么我也会得出同样的构造。但与此同时,所罗门诺夫得出的结论却如此一致、直接、出人意料——尽管我越思考贝叶斯公式,就越有这样的预感……

知识与理性是我们无法企及的。这一限制让我们只能满足于近似,我们甚至不知道怎么衡量这些近似的有效性。更不幸的是,因为我们的计算能力与时间的资源总是有限的(这是物理法则的结果),所以我们只能将自己限制在所罗门诺夫归纳法的一种极粗浅的形式中。

而且,这样的限制会随着观察数据量的增长而越发严重,这就是大数据的情况。今天,我们的数据,无论是数字的还是感官的,都需要用 GB、TB、PB、EB 甚至 ZB 来衡量 14。也就是说,我们在现实中研究的数列 包含着上亿甚至上亿亿项!储存这样的数据已经是一种幻想,而在这种情况下希望对其进行所罗门诺夫归纳法的近似计算就更是痴人说梦。因此,这会迫使我们更加谦虚谨慎 [11]

14GB(gigabyte,吉字节)、TB(terabyte,太字节)、PB(petabyte,拍字节)、EB(exabyte,艾字节)和 ZB(zettabyte,泽字节)大约分别对应 字节。——译者注

面对这个令人绝望的情况,这本书剩下的部分与当今科学界、统计学界和人工智能学界一样,只能满足于某种启发性的知识哲学。我们无法得到完整的知识,但我们也许仍然可以得到足够的知识。要做到这一点,在知道如何获得完整知识的前提下,我们会在本书中尝试从所罗门诺夫妖那里获得灵感,尽量做到贴近它的预测。

因此,自此之后我希望引入另一种哲学(尽管它并不精确)和另一位虚构人物。这种哲学就是实用贝叶斯主义,这个虚构人物就是实用贝叶斯主义者。与纯粹贝叶斯主义者相反,实用贝叶斯主义者在计算资源和储存空间方面都受到限制。因此,对他来说,利用众多迅速、高效的算法计算,胜于花大量时间运行寥寥几个运行时间非常长的算法。所以,实用贝叶斯主义者必须对算法有着切实的认识。

实际上,与纯粹贝叶斯主义相比,实用贝叶斯主义所需的关于计算和信息的理论更精巧、更先进,我们一般将它称为理论计算机科学,而计算机科学的实验性或经验性领域中关于计算的经验也可以作为理论计算机科学的补充。由哥德尔、丘奇和图灵自 20 世纪 30 年代起草创的这个现代科学领域已经成为当今科学研究中人们理解甚少,却最迷人、最有前途的领域之一。

信息科学并非只是现代技术的实用技巧。实际上,我立志成为有能力的贝叶斯主义者,对贝叶斯主义者而言,要得出最优的使用知识哲学,理论计算机科学的概念就是最重要的工具库——当然,前提是我们已经确实得出了正确的理想化知识哲学。在《量子计算公开课》(Quantum Computing since Democritus)一书中,计算机科学家斯科特·阿伦森甚至提出要将理论计算机科学改名为量化认识论(quantitative epistemology)。他特别强调了算法复杂度理论对于所有知识哲学的重要性 [12]

然而,我建议你先将这种对知识哲学的寻求放到一边,我们会从第 14 章开始重新花大量篇幅来探讨这一点。从现在开始,我建议你先观察贝叶斯原则如何无处不在——无论是在密码学、社会学、生物学,还是在科学共识的形成之中都有它的身影。在后面的几章中,我们会稍微离开贝叶斯主义,探索一些看似遥远的领域,但我们会一次又一次地发现,在所有这些变化多端的现象背后,实际上总是潜藏着贝叶斯主义的原则。


你宣称不关心隐私是因为你没有什么好隐瞒的,这就像你说不关心言论自由是因为你没什么好说的。

爱德华·斯诺登(1983— )

敌人了解整个系统。

克劳德·香农(1916—2001)