推荐序
知识图谱向何处去?
陆汝钤
很高兴得知陈华钧教授要出知识图谱的新书了。与2019年出版的《知识图谱:方法、实践与应用》相比,本书在内容上有很多更新,尤其是第8、第9两章中的新内容最为集中。这些内容反映了近年来知识图谱理论和技术的迅速进步,同时展现了作者团队的辛勤工作所取得的丰硕成果。我初步翻阅本书,就觉得很有收获。这里就其中的两个话题—知识图谱推理和知识图谱融合,谈一点个人想法。
知识图谱的推理是知识图谱服务功能中一个极其重要的问题。基于知识图谱的许多重要问题的解决都离不开推理。陈华钧教授曾经一语中的:知识获取的途径是“大样本靠机器学习,小样本靠知识推理”。这是知识图谱显身手的主战场。本书的“知识图谱推理”一章介绍了基于知识图谱的多种推理方式,包括基于规则的、基于本体的、基于图结构的、基于表示学习的、基于神经网络的,等等,这是非常有道理的。知识本身的多种多样,加上人的思维方式的多种多样,决定了推理方式的多种多样,也决定了推理逻辑的多种多样。本书已经介绍了足够多的知识推理机制,虽然受篇幅所限,难以穷尽开放语义下各种可能的知识图谱推理方式,但是最基本的“三大件”—规则推理、神经网络推理和图推理,都已经具备了。我有一个遐想:这“三大件”就像“海、陆、空”。图推理是“海”,亿万级“当量”的知识图谱是知识元素的“大海”。而一层又一层、高入云霄的深度神经网络可谓是“空”中楼阁。至于那强调一步一个脚印的规则推理,则是“陆”地上的老黄牛,看上去不那么“摩登”,但实际推理中却始终离不开它。我深信这“三大件”像最基本的化学元素,知识图谱的耕耘者们会不断地把这些基本元素“合成”为最新颖、最有效的崭新推理机制。
本书有一章是献给“知识图谱融合”的。如果把某个领域的知识图谱比作该领域的人类专家,则完全可以想象:有许多复杂问题单靠一位专家是解决不了或解决不好的,而一个优秀的专家团队将会大大提升解决问题的能力。对于知识图谱也是如此。在我们看来,这不仅是大数据的融合,更应该是大知识的融合,在一定程度上体现了知识图谱学习人类专家的合作精神。但是我还想做一点补充,除了知识图谱融合,知识图谱配合(只差一个字)也是可以考虑的。就是反其道而行之,不是融合成一个巨型图谱,而是保持各自的独立性,建成一个团队,开展多图谱合作。它们各有所长,遇到任务可以分工负责,遇到跨领域问题或不同意见可以切磋讨论,甚至辩论,从而引进多维度的灵活性。实际上,作者在第9章引入了基于区块链和知识价值观的联邦知识图谱的概念,虽然已接近本书的最后,却非常重要。其中提到的“去中心化”的思想更是“知识图谱配合”的核心概念。联邦知识图谱可以广义化、一般化,如果再配上杨强教授倡导的联邦学习,那就是如虎添翼,知识图谱的威力更大大提高了。它们不仅利用各自的知识以合作解决问题,而且保护了各自的知识产权,成为一种知识区块链的基础(我在不久前的一次国际会议上提出过这个建议)。我个人认为,在一定意义上,知识图谱配合将会显示出比知识图谱融合更加深远的理论意义和研究价值。我甚至期待着复杂度可能远超一般的“知识图谱联邦”(关键词:合作、保护)的“知识图谱共同体”(关键词:合作、保护和竞争)的出现。
多图谱合作和多图谱融合有一个共同的问题,就是各方图谱的结构、语法、语义和表示可能有较大差别,导致出现民间所谓的“鸡同鸭讲话”的困境。在这种情况下,如何才能合作好呢?别担心!世事毕竟“分久必合,合久必分。”一个学问出来了,研究的人多了,慢慢就形成了不同的流派。再过一段时间,出来了高人,又把不同的流派在更高的层面上统一了。目前正处于知识图谱大发展时期,还在“分”的阶段。各种新技术百花齐放,层出不穷。只是相比之下,“百家争鸣”稍嫌不足。以上面提到的知识推理为例,各种推理方法的提出和介绍在文献中比比皆是,但是对它们作对比和分析的文献相对缺失。本书在这一章的最后一节有对几种推理策略的简要分析和比较,那几句话很关键,可供知识图谱开发者参考。不过我们并不满足于此,而是期待着更加深入的理论剖析和应用指导的出现。至于当今一些知识图谱在知识表示上的各行其是,包括一些在国际上极负盛名的特大型知识图谱,则尤为明显。我们相信,在适当的时机会有某个权威的国际学术机构出面制定各种标准,收拾纷杂,形成一统。就像秦灭六国,什么语言文字,什么道宽路距,全部统一了。
本书对知识图谱技术的介绍是非常全面的。从知识的获取、表示和存储、图谱的构建和融合,直到图谱的查询、问答和推理等,还介绍了多种特殊类型的知识图谱,内容洋洋大观。这些技术应该都已经有相应的算法,并且体现为程序,掌握在不同的开发者手中,而且针对同一问题的算法和程序可能还不是唯一的。这里我想到了相应软件工具的(有偿或无偿)共享问题。不仅是个别的、特定的共享,而且是成套的、系统的共享。这对于知识图谱开发者非常重要。省去了耗时耗力的重复开发,可以把精力集中到研发新技术方面。我借此机会向同行们呼吁一下:请关注知识图谱通用平台的研发。它们集成了知识图谱从开发、管理到应用的许多功能,是知识图谱工程的一个重要组成部分。同时我还要强调本书作者陈教授说过的一句话:“我们希望见到国产的、开源的、允许批量下载(dump)的大型海量知识图谱。”陈教授认为只有这样的知识图谱才能够体现我国知识图谱技术在世界上的地位和影响。我完全支持这个倡议。
回到本书的宗旨。我注意到作者在本书中谈及的内容,基本上是根据他自己的授课教材编写而成的,并且今后还要根据知识图谱学科的进展,不断调整和丰富其内容。这是一条教研相长的光明大道。我们预祝陈教授成功!