书名：数据如何误导了我们
作者名：(荷)桑内·布劳
本章字数：14936字
更新时间：2023-02-13 19:18:28

第二章
愚蠢的数据：肤色和智商是否有关

第一次世界大战期间，有175万名美军新兵进行了智力测试。这项轰轰烈烈的运动由哈佛大学的心理学家罗伯特·耶基斯发起。他认为，心理学可以和物理学一样精确，但这得通过他和他的同事采集到的数据证明。

耶基斯的这个想法就是19世纪数字风潮的产物。当时，研究人员不仅将表示距离和体重的单位标准化，而且还提出了衡量犯罪和贫困等抽象事物的方法。

于是现在，人们将“智力”也放入了可测的范围内。耶基斯和其他智力研究专家一起拟定了一份可供大规模使用的智力测试题。随即，这一具有历史意义的研究便在“一战”期间展开了，全美国的新兵都收到了一摞写满问题的测试纸。

当耶基斯拿到所有的数据并分析之后，新兵们一个个可怜悲惨的形象浮现了出来。美国白人男兵的平均心智年龄只有13岁，再往下是来自东欧和南欧的移民，最后是黑人，平均心智年龄只有10.4岁。

“我也曾希望黑人超级聪明”（上）

如今，罗伯特·耶基斯这个名字已经鲜为人知，但黑人的智商却仍然是一个可以引发热议的话题。耶尔纳兹·拉莫塔辛在2016年接受荷兰新闻网站Brandpunt+采访时就表示：“人种之间的智商存在着差异。这一点是经过科学证明的。我也曾希望这个结论是错的，黑人其实超级聪明……但事实并非如此。”

两年后，由于拉莫塔辛的这番言论，作为荷兰民主论坛党候选人的他在阿姆斯特丹市政府选举中引发了不小的争议。排山倒海的批评声浪不断袭来，最终，他决定退出竞选。

持有这种观点的人可不止拉莫塔辛一个。从耶基斯的智力测试起，关于智商和肤色的讨论已经涌现了一浪又一浪。教育心理学家阿瑟·詹森在1969年就曾表示，黑人和白人学生之间的智商差异是由遗传基因决定的。当年的这番言论还引发了一场国际上的动乱。

1994年，政治学家查尔斯·默里和心理学家理查德·赫恩斯坦共同出版了《钟形曲线》一书。他们二人认为，美国黑人的平均智商比白人的低，同时建议政府不要鼓励智力低下的妇女孕育后代。

另一个争议事件发生在2014年：《纽约时报》的记者尼古拉斯·韦德撰写了一本畅销书，书名叫《天生的烦恼》。他在书中指出，世界上不同种族的形成是人类进化的结果，而种族之间的差异就反映在他们的智力水平上。

耶基斯的智力测试让人们清楚地认识到，这类言论的影响能有多么深远，更别提他的研究其实并没有被认真地执行。对175万名新兵进行智力测试的项目看起来似乎令人印象深刻，但实际上，数据采集的过程既草率又匆忙。斯蒂芬·杰伊·古尔德在其《人类的误测》一书中就描绘了给那些新兵做测试的屋子是什么样的：没有家具、光线不足还常常挤得人满为患，以至于后排的人根本听不到前面的人说了什么；有一些说德语的士兵则完全听不懂测试人员在说什么，因为他们才刚刚踏上美国这块土地没多久；其他会说英语的士兵中，很多人只是会说，但不会读也不会写；有些人甚至是第一次拿起铅笔写字，却要让他们回答例如“数一数图中有多少个立方体”或“按照前面图形所示的规律选择正确的图形”这样的问题。此外，给士兵们答题的时间还十分有限，因为下一组准备测试的新兵已经在门外的走廊上等着了。

你也许会说，上述的这些理由足以证明，我们不必太把这份数据当回事儿，但事实却恰恰相反。耶基斯那关于某些种族智力水平较低的结论尽管十分荒诞，却正好为在他所处的年代早已流行起来的一些想法提供了数据。比如优生学，这门旨在“提升人类质量”的科学，它的思想从“一战”后开始在北美和欧洲滋生蔓延。而耶基斯的研究数据在20世纪20年代美国国会关于移民政策的辩论中就曾屡屡被提及。按照政治家们的说法，既然那些来自东欧和南欧的新兵在智力测试里的成绩如此低，他们就理应被美国“拒之门外”。不久之后，这个想法还的的确确被付诸实践了。1924年至第二次世界大战期间，数百万人被挡在了美国国境线之外，其中许多人还是需要帮助的难民（通常为犹太人），却也因为这个原因被拒绝入境。

智力测试的数据还对美国绝育法案的合法化进程产生了深远的影响。1927年，“为智力受损的女性强制实施绝育手术”的行为被判定合法。美国最高法院大法官这么解释：“痴呆的人传三代就够了。”直至1978年，在成千上万名美国女性被强制绝育后，这种做法才被宣布是非法的。

读到这里，你应该会无比愤慨吧。然而，尽管智力测试带来的后果非常糟糕，但这并不意味着测试本身有问题，并且，从近年来的一些智力测试结果来看，黑人的平均分数确实比较低。

那这是否意味着智商和肤色有关的观点是对的呢？所以拉莫塔辛说的是有道理的？绝对不是。关于智商和肤色的论调是所有滥用数据的例子里最丑陋的一个。让我们接着往下看。

几个重要因素

如果有一个人声称某种族的智商低于另一个种族，该怎么理解这句话呢？首先，那些关于肤色和智商的观点大多是基于美国的样本得出的。因此，并不是所有的黑人在智力测试中的分数都很低，只是美国黑人的分数比他们的白人同胞低。

这其中还有很多细节值得推敲。在每一种有关智商和肤色的观点中，基本上采用的都是平均值，即一个种族智商的平均值低于另一个种族的平均值。在这两项平均值的背后，是所有人的智商集合，包括智商分数最高的美国黑人和分数垫底的美国白人。如果以常用的韦氏智力测试为例，你会看到两组数据之间存在着很大的重叠部分（请看下图）。图中的测试结果显示：许多美国黑人的智力水平高于美国白人智力水平的平均值。这句话反过来说也一样成立，许多美国白人的智力水平低于美国黑人智力水平的平均值。简而言之，这种平均值完全无法反映出个体的智力水平。

韦氏成人智力测试结果的智商曲线
资料来源：威廉·狄更斯和詹姆斯·弗林（2006年）

另外还有一个重要的问题：到底什么样的人算“黑人”，什么样的人算“白人”？在智力测试的过程中，人种归属的选择通常取决于被测试者的自我认知。但是，这个分类并非固定不变的：以前，美国人不把意大利人视为白人；在巴西，如果你不是欧洲人，那你就算是黑人；与2000年的普查结果相比，2010年的人口普查中，有数百万美国人更换了自己的人种类别。简而言之，一个人属于哪个人种，除了和他的肤色相关以外，还取决于其所处的环境和时代。

所以，在你要去测量智商之前，数据的来源、平均值的局限性以及“黑人”和“白人”的定义，这几个重要因素中包含着的细微差别，会让人们很难给肤色和智商二者之间的关系下一个定论。

如果一辆公交车上平均全是百万富翁

关于平均值还有一点值得注意：测量过程中的异常值可能会对结果带来极大的影响。不过，异常值在智商测试中所起的作用几乎可以忽略不计，因为智商的分布相当对称，智商平均值左侧的人数和右侧的人数是基本持平的。

但在收入的问题上就不一样了。2016年，约有730万（这个数字超过所有有收入人口总数的一半）的荷兰人年收入不足3万欧元，与此同时，有大约50万荷兰人的年收入超过10万欧元。这一组高收入人群大大拉高了平均收入的水平，就像统计学里的一则老笑话所讲的那样：要是比尔·盖茨上了一辆公交车，那么车上的每位乘客平均下来就都是百万富翁了。

由于异常值的影响，人们基本上不使用“平均收入”这个概念，而使用“可能收入”或“普遍收入”。同时，人们还引入了“收入中位数”的概念，用来避免异常值造成的影响：假设你把所有荷兰人按照收入从低到高排成一排，那么站在最中间的那个人的收入即为荷兰人的收入中位数。

五个主观选择

现在到了提出那个关键问题的时候了，到底该用什么测量智商呢？前面我们提到，在大规模使用数字的时候，标准化、采集和分析这三个步骤非常重要。同时，这也是研究人员开始研究数字时需要采取的三个步骤。

标准化作为第一个步骤，它在智商测试中发挥着重要的作用。要想将智力这个抽象的东西标准化，研究人员必须做出自己的选择。数字看上去可能是客观的，但其背后的决定往往带有主观色彩。以参与智商测试的第一批科学家为例，他们就做出了五个与客观相距甚远的选择。

1．你所测量的是人为创造出来的概念

罗伯特·耶基斯做智商测试的灵感来源于法国心理学家阿尔弗雷德·比奈，智力测试的创始人。不过，比奈若是知道他的测试被用来当作种族歧视的工具，恐怕得气得从坟墓里爬出来。因为比奈于1904年在学生西奥多·西蒙的帮助下制定出智力测试的方法时，他的初衷和耶基斯完全不一样：他为了帮助儿童。当时，法国教育部部长让他想出一种方法，来确定哪些在校学生需要特殊教育。

最初，比奈尝试用一种已使用多年的方法测量智商：量颅骨的大小。以前的人们认为，要想知道一个人有多聪明，看看他的头有多大就行了。但当比奈开始用卷尺量学生们的头围时，他才发现成绩好的学生和成绩差的学生之间，颅骨大小的差异极其微小。

因此，当比奈收到教育部部长的委托时，他决定换一种方法测量智商。比奈制作了一份测试题，测试题里面问题的难度逐渐加强。学生能回答到哪一题就对应了他的心智年龄是多少。如果一个学生的心智年龄远低于其实际年龄，那么他就有接受特殊教育的必要。这就是比奈第一份智力测试的原理。不久之后，心理学家威廉·斯特恩创造出了“智商”（IQ）一词，即一个人的心智年龄除以其实际年龄等于他的智商。

在成功建立了公制单位“千克”和“米”之后，越来越多的东西都变得可测量了。对距离和重量来说，建立它们的测量标准还是相对容易的，因为每个人都明白这些概念代表什么：距离是从这儿到那儿有多远，重量是当你提起一个物品时它有多重。这类标准试图去测量的是一些具体的事物。

不过我们已经知道，19世纪以来，越来越多其他类型的数据开始涌现，比如有关经济、犯罪、教育等抽象概念的数据。就拿其中一个控制着所有人生活的概念“钱”来说吧。人们手里的硬币和钞票实际上一文不值，它们既不能吃，也不能被用来制造任何东西，更不能被拿来治病。但是，人们相互之间达成了一项共识，即钱是有价值的，并且人们相信所有的人，包括政府都会继续遵守这项共识。

正是由于存在许多这样的共识，才确保了我们比原始社会时期的人类有着更大规模的相互合作。民族国家、宗教……所有这些共识驱使着人类朝着同一个方向前进。但是，我们一旦把它们当作客观存在的事物，那就很危险了。如果我们忘记了自己曾经创造出来的概念，例如“经济繁荣程度”或“教育水平”，而后却又认为它们是本就存在的，这就被称为“物化”。“物化”这个词源于拉丁文，它的意思是人们创造了一些概念，然后自己却忘记了这是人为创造出来的，反而相信它一直存在于社会之中。

人们去衡量一个抽象的概念，其得出的结果会更容易带“客观”的光环。我们以GDP（国内生产总值）这个所谓“经济的标尺”为例，假如GDP值下降，那就意味着我们处于经济衰退之中。最后，人人都得勒紧裤腰带过日子，只因政治家们认为这样有助于GDP的恢复和增长。

因此，对抽象概念的衡量最终会反映到一些实际的后果上面，比如你可能会失业，就得缴纳更多的税款或者获得补助金，等等。这样听起来，GDP似乎是自然界里的一条铁则，但其实根本不是，它诞生还不到100年呢。

GDP的概念源于“二战”前的美国，当时美国正处于经济大萧条时期。那么，美国那时候的经济到底怎么样呢？没人知道这个问题的答案。政府手里只有一些零星的、和价格以及运输业相关的统计数据，但没有一个数字能概括出美国当时经济的状况。

于是，政府要求经济和统计学家西蒙·库兹涅茨发明一种方法来衡量“国民收入”。库兹涅茨同意了。他的想法是将家庭和企业的收入相加，从而得到国民收入的总和。当库兹涅茨于1934年第一次发表他的研究成果时，其中传达给大众的信息量是十分惊人的：1929年至1932年，美国国民收入减少了一半。这是第一次有人用数字来表示美国的经济状况，而这个结果着实令人心惊。

在随后的几年内，美国政府一直对库兹涅茨“国民收入”的理论极为不满。而随着战争的日益临近，这个概念在政治上也变得十分尴尬。政府更希望将钱投在武器上而不是人民身上，但按照库兹涅茨的方法来计算，政府采购武器的支出意味着国民收入的减少，而民众对战争的支持率也会随之下降。解决的方法只有一个——换一种衡量标准，也就是“国内生产总值”。国内生产总值衡量的是一个国家提供的所有产品和服务的总价值，其中自然也包括政府。这么一来，购买新型轰炸机就变成是有利于经济的举措了。

不过，库兹涅茨并不赞成“国内生产总值”这个概念。他坚定地认为，要衡量一国经济就必须得衡量这个国家的经济繁荣水平。在他看来，这和采购武器没有丝毫关系。但库兹涅茨的观点并没有得到美国政府的支持。1942年，美国政府首次对外公布了美国GDP的数值，其中就包括了军费开支。由此，我们可以清楚地看到：这个数字最终呈现的方式与自然定律无关，而完全是由政治家们操纵的。

如今，政治家和决策者们似乎常常忘了GDP是一个人为创造出来的概念，反而将其当作客观的衡量指标使用。比如，到了需要支持“必要的紧缩政策”时，政府就可以拿GDP当论据。但是，GDP并非像重力那样是一个具体的衡量标准，不能因为人们往它上面“贴”了数字，就说它是客观存在的。

我们再回到耶基斯和他给士兵们做的智力测试。“智力”这个概念也是如此，它是一个人为创造出来的抽象概念，一个我们即将要测量的概念。

如果3次经济衰退凭空消失

过分看重GDP数据可能会是一件很危险的事，尤其是当人们忘了它并不总是像看上去的那般精确时。2015年7月，美国经济分析局宣布：美国的经济在上一季度增长了2.3%。一个月过后，这个数字被上调到了3.7%。再一个月后又变成了3.9%。

这是因为数据统计员能力不足，还是他急着去度假所以敷衍了事呢？都不是。调整经济数据的行为完全是正常的，在荷兰也是一样。因为当你了解到计算这样一个数字需要多少信息时，你就不会觉得调整数据有什么好奇怪的了。从税收到国防支出（是的，这部分依旧算在GDP内），从进口值到出口值，所有的一切都得考虑进去。采集这些数据是需要时间的，而且还不能保证全部数据都准确无误。因此，美国经济分析局公布并采用的GDP数值竟然如此精确（保留到了小数点后一位），这一点是颇为奇怪的（在本书第三章，我还将继续对数字的不确定性展开分析）。

有时，新采集来的数据会给经济面貌带来另一番景象。国家是否处于衰退期这个问题就是一个例子。1996年，英国的经济数据显示，英国的经济在1955—1995年经历了10次衰退。在这段时期里，经济紧缩，民众失业，整个国家都乱套了。然而，2012年最新的数据却显示，情况并没有那么糟糕：在这40年间，英国只经历了7次衰退。3次衰退就这么“咻”的一下凭空消失了。

2．你所测量的是建立在一个价值判断上的

2007年，专门研究人工智能的沙恩·莱格和马库斯·胡特尔曾收集了所有他们能找到的关于智力的定义，并且收获颇丰，他们总共找到了超过70条对智力的不同描述。两人精简了其中重复的部分，然后提炼出了一条包含所有内容的描述：“智力是衡量一个人或事物在各种情况下达成目标的能力。”

莱格和胡特尔总结出来的这条描述的确考虑了所有收集来的定义，但它极其模糊。按照他们的说法，如果一个人在不被其他人发现的情况下，半夜偷偷地潜入一栋房子，然后从冰箱中偷走了一瓶酒，那就可以说这个人是聪明的。当然，在智力测试里你是不会轻易碰到这种题目的。

那么，智力测试里的题目是什么样的呢？在前面提到的韦氏智力测试中，题目涉及词汇量、数字序列和空间洞察力这些和抽象思维相关的内容。阿尔弗雷德·比奈发明的第一份智力测试题同样也是这些内容。题目中，比奈要求儿童记一串数字，或是找出两个东西之间的差异，这份题目启发了耶基斯。

对我们来说，把这些涉及抽象思维的问题和智力联系在一起是再自然不过的事儿了。然而，20世纪30年代初期的一项研究却表明，这种想法是具有局限性的。

神经心理学家亚历山大·卢里亚在他的自传中，记录了一段他前往乌兹别克斯坦的旅行。当时，这个国家正处在快速现代化的阶段。卢里亚想看看，这种发展是否会让当地人产生另一种思维方式。有一回，他和他的同事去探访了一位住在乌兹别克斯坦偏远地区的30岁农民拉克玛特。

他们给拉克玛特展示了四张图片，分别是一把锤子、一把锯子、一截圆木桩和一把斧头。然后他们问他：“这里面哪一项和其余三项不是一类的？”拉克玛特回答：“它们全都是一样的，我认为它们都属于同一类型。你看啊，如果你要锯什么东西，那你就需要一把锯子；如果你要劈柴，你就需要一把斧头。所以它们都是必需品。”

之后，研究人员试图向他解释，说他误解了这个题目的意思。研究人员举例说：“想象一下，如果有三个成年人和一个小孩，那么小孩就和其余三个成人不是同一类的。”拉克玛特说道：“噢，但是那个小孩一定是和其他三个成年人一起生活的！你看啊，这三个成年人都在工作，假如他们老是需要跑回家中取东西的话，那他们的工作就做不完了。但是小孩就可以帮他们跑腿……”

物品分类是智力测试中一定会出现的问题，而与拉克玛特的对话则让我们看到，给物品分类的方法多种多样。那如果出题的人是拉克玛特，答案又会是怎样的呢？这种测试更多的是衡量人们是否具有一些对自己的族群而言十分重要的生存技能。若是由乌兹别克斯坦人来出题，他们大概会问怎样能更精准地射杀鸟类，或是如何妥善地储存白菜来过冬这样的问题，而这些，我们大多数人恐怕都答不上来。若是让马赛人或因纽特人去设计一份测试题，按照他们的标准，那我们全部都是智障。

然而，设计智商测试题的人并不是拉克玛特，也不是护士、木匠或销售员，而是像比奈和耶基斯这样受过西方高等教育，同时又痴迷于数字的人。在他们设计的智商测试题中，不管你照顾病人、造出一张桌子或是与人打交道的能力有多强，这些都不重要。完成数列、理解句子中的隐喻以及精准地将物品归类，这才是他们看重的全部（顺便说一句，我在玻利维亚做研究时，对受访者也的确抱有过这样的想法。当时我得出了愚蠢的结论，认为胡安妮塔回答不了我提出的问题）。

与此同时，抽象思维逐渐占据着智力测试题目的主导地位，以至于它看上去似乎的确是智力真正的表现形式。我们认为这种形式是最好的，但这并不代表它就是一个客观的选择。实际上，这是一种价值判断。

GDP的情况也是如此。尽管西蒙·库兹涅茨认为GDP这种衡量标准并不等同于经济繁荣，但自第二次世界大战以来，GDP就常常被当作经济繁荣的指标使用。对于许多国家政府来说，GDP增长就等同于经济增长，而这便是最大的利益。然而，人们随即就和政府一样，自动陷入了一种价值判断之中：GDP值非常重要，即使它并不总能反映出许多人认为有价值的东西。例如，按照这种算法，会造成环境污染的行业尽管对环境有害，却是有利于GDP增长的；一个安全系数较低的社会也会意味着经济的增长，因为人们不得不在大门上安装额外的锁或购买监控摄像头。而那些没有被包括在GDP内的东西呢？例如，荷兰人每周花费22个小时在各类无报酬的护理事务上，比如打扫卫生、照顾小孩或义务钟点工服务。而这些在GDP的数值中是看不到的，因为GDP的原理是：只有我们付钱雇用某人来为我们做事，那才能反映在GDP上面。

人们不仅仅衡量自己认为重要的东西，反之亦然：人们衡量的东西也会变得重要起来。GDP就一直被用作政治决策的基础。比如，唐纳德·特朗普就曾用经济增长作为他发动贸易战的论据。一个国家是否能加入欧元区，很大程度上也取决于其GDP的数据好坏。

同样，人们也渐渐开始看重智商测试的结果，招聘、面试时就常常用到它。直至今日，这些测试中考察抽象思维的部分依然是荷兰Cito和美国SAT测验[7]的核心，而这两门考试都能决定一个人的未来。通过这样的方式，我们逐渐被自己设计出来的衡量标准牢牢控制着。

3．你所测量的是可以被量化的

现在这个问题依然没弄明白：智力到底是什么？我们之前看到的那么多条定义都是含糊不清的，所以也没办法将智力直接转换成数字。但是，不论人们想要测量什么东西，都需要首先对它下一个清晰的定义。于是，统计学家查尔斯·斯皮尔曼在1904年想出了一个手段，能绕开给智力下定义这个环节，因为人们既然最终是要把智力用数字的方式展现出来，那为什么一定要用文字去定义它呢？

斯皮尔曼查看了一些智商测试的结果后发现，在一项测试中得分较高的人，往往在另一项测试里也会拿高分。这就代表着，所有这些测试的背后都存在着某种规律，但那是什么规律呢？在经过大量的计算之后，斯皮尔曼认为可以将每个人在测试中的全部得分转换成一个数字。他将该数字命名为“一般智力因素”（g-factor），并决定用这个数字来衡量一个人的一般智力。和耶基斯一样，斯皮尔曼一直渴望能将心理学变成像物理学那样的学科，而他的这个方法让他离自己的梦想更近了一步。自信的斯皮尔曼还认为，他的这项研究“从某些角度上看能媲美哥白尼革命”。

随后，斯皮尔曼在其《客观地测量和确定一般智力》一文中将他的发现公之于世。但他有没有像标题所述的那样、客观地进行研究呢？即便我们同意智力测试以考察抽象思维为主，不考虑其他的因素，但这儿仍然存在着一个问题：在斯皮尔曼的方法中，唯一的表现形式只有数字，他只算了可以被算出来的部分。这也就意味着他把所有抽象的部分给排除在外了——那些难以被量化的东西，比如写作的质量、解决方案的创造性；或是科学家需要花长时间去观察的东西，比如一个人学习一门语言的速度，某人在其犯错之后采取的措施，等等。

这样做产生的结果使智商测试永远不可能直接地去测量，而是间接地测量。测试的结果是一个替代变量，是一个近似值。这一点其实并没有错。一个人的智商可以帮助心理学家洞悉他的长处和短处。但心理学家不仅仅要看最后的总成绩，还需要查看每部分测试项目的成绩，并将这些数字与自己观察到的结果进行比较。

而只有当智商成为智力的代名词时，人们才需要警惕。但这恰恰是在探讨智力和肤色的关联时常常会发生的事情。智商往往被看成个确定值，而不是一个估算出来的近似值。正如心理学家埃德温·博林在1923年所说：“智力才是这些测试真正想要考察的东西。”

在我们所处的社会中，人们每天必须面对并处理各类复杂的现实事务，而这些都渐渐地开始用数字表示。以职场为例，在几乎每一份职业中，你都会被与数字有关的东西包围：你工作了几个小时，介绍来了几位客户，帮助了几位病患，等等。但有时候，真正重要的事情是很难用数字来表示的，比如你和客户的关系是否能持续，你照顾病患时友善与否，等等。这些不禁让人想到，据说阿尔伯特·爱因斯坦的办公室墙上挂着这样一句话：“并不是每一件有意义的事情，都能被计算出来；也不是每一件能被计算出来的事情，都是有意义的。”

但是，用数字来记录工作和智商测试一样，它本身并没有错。数字可以帮助人们更深入地了解自己的工作。不过，要是评价一个人的工作质量只看重短期内的数字成果，而忽视他在工作期间所做的其他事情的话，那就会出问题了。比如，有人曾经计算了在一段时期内，荷兰警察开出了多少张罚单。结果显示，这里存在一个特别的“罚单日”。在那一天，警察要尽可能地多开罚单。平日里那些可以睁一只眼闭一只眼的违规行为，像是骑自行车时没有打开车灯或开车时忘记系安全带，在“罚单日”都会被罚款。至于这种方法是否真能让社会变得更安全，那就是次要的了。

在英国，医院的急救中心有一条规定：每一位病人的诊治时间不能超过4个小时。为了应对这条规定，医院内部进行了大范围的调整。人们待在救护车里的时间越来越长，而病患为了不超时，总是抢在截止时间前的最后一刻才去登记。从数字上来看，医院的服务质量的确提高了，但在现实中则是更加可悲了。

或许，罚单的数量和急救中心的等待时间对于改善警局和医院的服务质量来说，曾经是一种好的解决方法。但时间一长，数字就变得没那么有用了。人们看重的不再是那些之前被认为很重要的数字，而是采取的方法。

如今我们一次又一次地看到，人们在某些情况下总能找到各种方法操纵数字。他们在数据上作弊，或调整自身的行为来达成某些指标。而这就是以经济学家查尔斯·古德哈特命名的“古德哈特定律”：“如果一项指标一旦变成了目标，它将不再是个好指标了。”数字就像肥皂，如果你用力挤它，它就会从你手中滑脱。

4．你所测量的最终会被一个数字替代

在智商测试上还有一个很重要的主观选择：用一个数字就能代表智力。比奈，这位第一份智商测试背后的男人，对此是极不赞成的。他警告道：“概括地来说，一个数字并不能说明一个人的智力水平，因为智力的质量是无法被计算的……”

多年来，许多心理学家都同意比奈的观点，比如拥有英国和美国双重国籍的心理学家雷蒙德·卡特尔。他提出，智力的类型有两种：一种是晶体智力，指一个人所掌握的知识和经验；另一种是流体智力，指一些诸如逻辑思维的技能。他是卡特尔-霍恩-卡罗尔智力理论（Cattell-Horn-Carroll theory）的创始人之一。该理论假设人类存在着多种形式的智力，即所谓8种“广泛能力”，例如知识累积和模式识别等等。

然而，尽管提出了8种不同的能力，该理论却依旧认为可以用一个g因素概括全部的智力。这项理论影响了许多现代的智力测试。在智商测试中，每一部分的得分虽然都会被单独计算，但最终只会得出一个数字，即智商。

就算是坚决不同意用一个数字来代表智力水平的比奈本人，最后也还是用一个数字来表示每一位测试者的心智年龄。他为什么会这么做？我无法找到这背后确切的原因，但我强烈怀疑，这是因为一个数字看起来会更加一目了然。

当经济学家西蒙·库兹涅茨首次发布他研究得出的美国经济数据时，很显然他也只用了一个数字总结概括了全美的经济状况。以前，所有有用的数据都是零散的，而现在你一眼就能看明白，并且其还能引起民众的大量关注。库兹涅茨发表的经济报告甚至在大萧条时期都成了畅销书。美国总统富兰克林·德拉诺·罗斯福还用过库兹涅茨的数据作论据，来支持那些能帮助国家走出大萧条的举措。

要想把经济这类复杂的东西用一个数字概括出来，人们总得忽略一些其他东西。在GDP里，被舍弃的就是所有无法用钱来衡量的东西。不过，1998年诺贝尔奖得主，经济学家和哲学家阿马蒂亚·森却表示：“一个国家的发展不仅仅与金钱相关，人民还需要获得优良的教育和可靠的医疗保障。”

因此，1990年，阿马蒂亚·森与马赫布卜·乌·哈克共同提出了“人类发展指数”的概念。该指数着眼于三个方面：人的预期寿命、受教育年限和收入。一个国家的“人类发展指数”越大，代表这个国家越发达。后来，该指数成为判断一个国家是否发达的通用衡量标准。2015年，挪威以0.9594分位列世界第一，而中非共和国则以0.35分排名垫底。荷兰当年的名次是第五。

尽管使用多个维度来衡量一个国家的发展水平是件好事，但像“人类发展指数”这种复杂的概念却都再一次被扁平化成一个数字，一个用起来方便交流的数字。因为，假如每个国家或地区都能用一个数字来表示，那人们就能轻松地制成一张表格，谁优谁劣一清二楚。这和如果你能用一个数字来表示智力水平，那么你也就可以轻松地给人排名次，是一个道理。

当排名并不是真正的排名

本书肯定不是有史以来最畅销的书（当然它应该是所有叫这个书名的书里最畅销的）。这是我向现在随处可见的各类排行榜的“致敬”。哪个国家是全球最幸福的国家，哪家甜品店卖的荷式甜甜圈最好吃，哪座医院是全荷兰最佳——所有的这一切都被拿来计算和分类。但其中有一些排行榜完全就是胡说八道。之前，一位做荷式甜甜圈的面包师在伊内克女士的脱口秀节目中，就谈到自己在荷兰《大众日报》的排行榜上位列第一，而后来这些分数却被证明都是经人篡改过的，因为试吃的人绝对不会给出低于3的分数。《大众日报》的总编辑汉斯·奈恩黑斯后来承认：“应我们的要求，这些数字被按照一定比例转换成了从0到10的数字，以便将最后的结果稍稍区分开来。”此后，《大众日报》就停止了这类味道测试的活动。

《大众日报》的全荷兰医院年度排行榜也几乎毫无意义。每年，该报纸都是随机选择要对医院进行评估的项目。商业专家赫尔姆·约斯滕在2014年就曾表示，每年排行榜内医院的平均升降幅度不少于25个名次。这一年位列前十的医院，大多数在下一年就会掉出榜单。如果你预约了榜首的“最佳医院”，那么很有可能当你去那里看病时，这家医院就已经不再是排名第一的医院了。

让我们回到之前所说的，用一个数字来表示像智商这样的抽象概念。对此还有另外一种反对的声音：通常来说，人们可以采取各种各样不同的方式来测量同一个概念。我们再次以人类发展指数为例，要怎样将预期寿命、受教育年限和收入这三者相加？对于一国内部的不平等问题该如何处理？男女之间的差异在测量中是否可以忽略？这些问题哪一个都没有明确的答案。

顺便说一句，这些问题并不是我提出来的。联合国在其发布的报告中，除人类发展指数外，还提到了经过不平等调整的人类发展指数和性别发展指数。人们可以在报告中看到每个国家在不同项目上的得分、衡量标准的局限性以及一些无法衡量的维度。

然而，这些细微的差别却极少出现在报纸上。因为一个数字看起来就足以认清事实了，而多余的那些数字就可以被抛诸脑后了。过不了多久，对同一个概念的各种异议就会充斥整个世界。比如，表示“饥饿”的数字在很大程度上取决于你如何定义“饥饿”。联合国粮食及农业组织（FAO）给出的定义是：一个人在一年内摄取的卡路里过少，即为营养不良。但怎么样才算“过少”呢？每天坐在办公桌前敲电脑的人和在田间耕种劳作的人，在这个问题上的差别可是相当大的。

2012年，联合国粮食及农业组织就曾给出过另一种计算模式——对饥饿的定义不同，最后得出的数据也会不一样。过去几年内，全球饥饿人口在一种情况下是增长的，而在另一种情况下，这个数值就有可能减少。研究人员还可以自行在“绝对饥饿人数”和“世界人口饥饿率”之中选择。如果你认为每一个人都重要，那么就选择“绝对饥饿人数”。但是，如果你觉得让大部分的人获得足够的食物才重要，那就要看“世界人口饥饿率”了。这些都是道德上而非统计上的考量。

研究人员的选择也会给智商测试的结果带来很大差异。1984年，心理学家詹姆斯·弗林在研究了几代人的智商后，得出了一个令人惊讶的结论：人的智商在19世纪是逐渐升高的。如果我们用当前的衡量标准重新计算前几代人的智商，那他们的得分都在70附近徘徊——这个数值意味着智障。而若用以前的标准来计算现代人的智商，那我们的平均智商是130，基本上个个都是天才。

这个现象后来被称为弗林效应，它被发现的时间是1984年，距离阿尔弗雷德·比奈首次对法国学生进行智力测试已经过去了80年。为什么花了这么长时间才发现几代人之间的巨大差异呢？尽管从那以后，弗林效应在科学上一遍又一遍地被证实是正确的，但其实测效果却无法用肉眼看到。因为，智力测试的内容每隔一阵子就会更新一次。

就拿韦氏儿童智力测试来说，该测试首次被投入使用是在1949年，然后在1974年、1991年、2003年和2014年分别被更新了1次。不仅问题涉及的范围变得更广，计分方式也有了很大的变化。新的计分方法是对一组人进行智力测试，最后一组内每个人的智商必须确保整组人的智商平均值等于100。这些测试小组的得分，就像人类社会一样，也在不断进步着。由此，心理学家詹姆斯·弗林提出了一个观点：从19世纪起，越来越多的学校和公司开始采取一种特定的抽象思维方式来锻炼人类的心智水平，使其变得更好、更优秀。所以，如果你和先人们一样聪明的话，那你的智商肯定偏低。

5．你所测量的是你想看到的东西

我们回到耶基斯和他在“一战”期间给美国新兵做的智力测试。根据测试成绩，除了移民，新兵多数是智障以及黑人的智商垫底之外，耶基斯的团队还发现了一些其他的结果。例如，一个人的测试成绩和他所接受的教育年限之间似乎有着很大的关系。

然而，耶基斯并未得出“教育能提高智商”的结论，他反而认为这两者之间的关系是反过来的：“从我们采集到的数据可以看出，一个人的普通智力是决定他能否继续接受教育的最重要因素之一，这一点毋庸置疑。”甚至，当他发现黑人的受教育程度偏低时，他也并不觉得这是导致黑人智商较低的原因。耶基斯认为，正是因为黑人天生智力低下，所以他们的受教育年限才偏短。不过他忘记了一点，当时这些黑人可是生活在种族隔离的年代。

由此，耶基斯的认知在这儿产生了偏差（关于这部分内容我将在第四章展开讨论）：他不假思索就判定，肤色和思维能力是因果关系，肤色决定了一个人的思维能力，尽管他的数据根本无法证明这个结论。耶基斯并没有从他的数据中得出结论，而是听从了他的直觉。这种直觉和他所处的年代紧密相关。

这一点从耶基斯给《美国智力研究》一书所写的序言中就可以看得出来，在这本书中，他引用了自己的全套数据。后来，优生学专家在讨论美国移民问题时，常常使用这本书里的内容。耶基斯在序言中写道：“作为一位公民，我们谁都不能对即将发生的种族恶化问题坐视不管，也不可忽视移民与国家进步之间那毫无疑问的关联。”

你会一次又一次地在本书中读到像这样类似的场景：如何解释数字背后的意义，取决于数字使用者的理念或需求。

智力测试的发明者阿尔弗雷德·比奈就曾警告说，我们不应该将智力视为一个不会改变的事物。尽管如此，耶基斯还是决定用数字表示智力，用智力测试的得分表示一个人先天的思维能力。

提出GDP概念的经济学家库兹涅茨也曾警告说，GDP的数值并不等同于繁荣。然而，在20世纪，这个概念被一再地用作衡量一个国家繁荣与否的工具。

这样的诠释方法是很危险的。如果你想要严肃地看待一份数据，你就必须承认在它的背后，其实还有很多没有展现出来的东西。所以，GDP仅仅是一个国家衡量其“生产能力”的标准，智商也只是你在一项测试中的得分而已。我们不能因为自己的理念和偏见，就把数字夸大到与事实相悖的程度。

那么，一个世纪之后，对于耶基斯诠释新兵智力测试的得分的方式，我们还能得出一些什么结论呢？智商真的能衡量一个人的先天智力吗？

不能。正如比奈所怀疑的，事实证明，一个人的智商并不能完全体现其智力水平。其中最重要的一个证据就是弗林效应。几代人智商的不断提高并不意味着祖先们是愚笨的，我们是聪明的。我们只是变得更擅长使用抽象思维了而已，因为这符合现代社会中所有人的期望。用作家马尔科姆·格拉德威尔的话来说：“就好比无法说一个人有多么现代一样，智商也没办法说明一个人有多么聪明。”

心理学家们一致认为，智商是由环境和基因共同决定的。也就是说，一个人的生活环境会对智商带来极大的影响。例如，事实证明，印度农民在丰收季之前，他们做智商测试的平均得分比丰收季过后再做的平均得分低13分。因为在丰收季到来之前，农民们会面临一段时间的饥荒，还会遇到一些财务上的困难。他们的思维能力受困于贫穷的压力，导致他们根本没有足够的脑容量来思考测试中的问题。

在肯尼亚进行的另一项研究则发现，在1984—1998年，该国儿童智商的平均值提高了26分以上。为什么呢？研究人员指出，这归功于肯尼亚生活环境的改善：儿童的父母受到了更好的教育，国民的膳食营养得到了提高，孩子们也更健康了。

日益改善的生活环境同样也提高了美国黑人的智商。如今，他们与白人同胞的智商差值比过去更小了。30年过去了，美国黑人现在的智商只比白人低4分到7分。简单来说就是经济学家威廉·狄更斯和心理学家詹姆斯·弗林（就是弗林效应的那个弗林）在2006年曾得出的一个结论：美国黑人和白人之间的智商差值保持不变，这是一个不存在的“神话”。

再回过头来说一说耶基斯和他理论的追随者们，他们将智商视为智力的代名词是错误的，而将智商用来代表先天智力更完全是胡说八道。只要美国黑人的生活环境与白人的不一样，那么去假设他们之间的智商差异是由两组人的基本生理差别造成，这就是毫无意义的。

尽管现在的情况已经有所改善，但种族之间不平等的问题依然存在。2016年，美国黑人家庭的资产中位数为17600美元，是白人家庭资产中位数171000美元的十分之一。黑人社区（通常较为贫穷）内的学校质量也比白人社区的低。歧视仍然是当下正在发生的事情。那些用虚构的简历做的实验一次又一次地表明，那些有着看起来像非裔美国人的名字的求职者被用人单位拒绝的概率更高。而令人惊讶的是，这时，人们反而对考试中的得分差异（我只能用这个词）没那么敏感了。

“我也曾希望黑人超级聪明”（下）

在这一章中我们看到，当一名研究人员把像智力这样的抽象概念标准化时，他总会做出自己的主观选择。这么看来，数字好像一点用处都没有了，但事实并非如此。数字可以帮助人们发现一些原本隐藏得很深的模式。

不过，对数字抱有错误的期望和假定数字从定义上看就一定是客观的，这两种思维都很危险。到了那时，数字就会被人们拿来当作不再继续深入思考的借口。耶尔纳兹·拉莫塔辛说这句话的时候就是这么一回事儿。他说：“我也曾希望这个结论是错的，黑人其实超级聪明……但事实并非如此。我对此也无能为力，这都是数据得出的结论。”

这句话完全是本末倒置。如果人们想要严肃地看待数字，那就必须看见并指出它所有的局限性：数字背后隐含着人们的价值判断；并非所有事物都能被量化；衡量同一件事的方法有许多种；有很多事数字并不会告诉我们。数字并非等同于现实，而是我们理解现实的一种工具。

数字可以揭示人们原本无法看到的东西。在第一章里，我们已经了解到阿奇·科克伦是如何使用数字测试药物的效果。智商也可以用来帮助他人，心理学家就用它来了解儿童的成长过程。就算是那些表示黑人与白人之间智商差异的数字，也可以帮助人们认识到种族之间不平等的问题。

因此，不要让数字成为一个话题的终点，而应该是起点，是一个能让人们继续提问并思索下去的理由。那么，人们在研究数字的过程中都做了哪些选择？数字间的差异来自何处？数字对政策来说又意味着什么呢？还有最重要的一点，数字真的能衡量人们认为重要的东西吗？