1.1 语言与知识
1.1.1 构建有学识的人工智能
首先将从“语言与知识”两个视角出发,引出本书的主角——知识图谱。这里的故事从人工智能的起源开始。早期的人工智能有很多持不同观点的流派,其中两个历史比较悠久的流派通常被称为连接主义和符号主义。连接主义主张智能的实现应该模拟人脑的生理结构,即用计算机模拟人脑的神经网络连接。这个流派发展至今,即所谓广泛发展的深度神经网络。另外一个流派称为符号主义,主张智能的实现应该模拟人类的心智,即用计算机符号记录人脑的记忆,表示人脑中的知识,即所谓知识工程与专家系统等。
深度学习首先在视觉、听觉等感知任务中获得成功,本质上解决的是模式识别的问题,可以比喻为实现的是一种聪明的AI。但感知还是低级的智能,人的大脑依赖所学的知识进行思考、推理和理解语言等。因此,还有另外一种AI可以称为是有学识、有知识的AI。这和知识图谱有密切关系,如图1-1所示。事实上,这两种AI对于实现真正的人工智能都很重要,缺一不可。
图1-1 构建有学识的人工智能
什么叫认知智能?认知智能有两个核心的研究命题,一个是语言理解,另外一个是知识的表示与处理。人类通过认识世界来积累关于世界的知识,通过学习到的知识来解决碰到的问题。比如,一位医生利用他的医学知识给病人看病。而语言则是知识最直接的载体,到目前为止,人类的绝大部分知识都是通过自然语言来描述、记录和传承的。
与此同时,正确理解语言又需要知识的帮助。如图1-2所示,这里举一个有趣的例子:“G20上午开会休息,马云对他的秘书说:‘中午帮我买肯德基。’30分钟后,秘书回来说:‘买好了,一共4.6亿美元,咱是支付宝还是现金?’”。这当然只是个玩笑,当时的新闻是春华资本及蚂蚁金服共同向肯德基的母公司百胜餐饮投资了4.6亿美元。这里关注的是背景知识对于正确理解语言的重要性。假如马云的秘书是一个人工智能,它在第一个语境中,应该把肯德基识别为一种食品,而在第二个语境中,应该把肯德基识别为一家公司,而且它还需要知道肯德基的母公司是百胜餐饮,蚂蚁金服投资了百胜餐饮,而马云是阿里巴巴的创始人,阿里巴巴与蚂蚁金服存在关联关系,才能正确地建立马云和肯德基的关系。这个背后的事物关系网络其实就是知识图谱。事实上,每个人的大脑里面都有大量这种类型的关于万事万物之间关联关系的知识图谱,我们极大地依赖这些背景知识来准确理解语言并正确地做出判断。
图1-2 语言与知识是实现认知智能的两翼
1.1.2 知识的承载与表示方式
那到底什么是知识?柏拉图说知识是“Justified True Belief”。实际上,人类的自然语言,以及创作的绘画和音乐、数学语言、物理模型和化学公式等都是人类知识的表示形式和传承方式。具有获取、表示和处理知识的能力是人类心智区别于其他物种心智的最本质特征之一。传统的人工智能领域有一个经典的研究方向——知识工程和专家系统。这种经常被称为是GOFAI(Good Old Fashioned AI)的基本思想是建立一个系统,能够从专家大脑里获取知识,再通过一个推理引擎为非专家用户提供服务,如辅助诊断、判案等。而这个从人脑获取知识的过程就叫作知识工程。
知识有很多种表达载体和存在形式,例如自然语言是人类知识最主要的表达载体。既然人脑能够通过阅读从文本获取和学习知识,机器脑也应该具备从文本中抽取知识的能力。但文本字符串似乎对机器不太友好,机器在理解人类语言方面仍然步履维艰。比如类似于微软小冰、苹果Siri、小米小爱音箱等产品在人机对话方面的体验仍然面临巨大的挑战。
当前,通过机器来理解文本中的知识有两大主要的技术路线。如图1-3所示,第一种是抽取技术,例如从文本中识别实体、关系和逻辑结构等;第二种是语言预训练,即通过大量的文本语料训练一个神经网络大模型,文本中的知识被隐含在参数化的向量模型中,而向量化的表示和神经网络是对机器友好的。所以,文本本身也可以作为一种知识库(Knowledge Base)。
图1-3 文本知识库
知识图谱的本质是一种结构化的知识表示形式,也是本书的主角。简单地说,知识图谱旨在利用图结构建模、识别和推断事物之间的复杂关联关系和沉淀领域知识,已经被广泛地应用于语义搜索、智能问答、语言理解、媒体理解、推理引擎和决策引擎等众多领域,如图1-4所示。相比文本而言,结构化数据更易于被机器处理,比如查询和问答。同时图结构比起字符串序列能够表达更加丰富的语义和知识。
图1-4 知识图谱:结构化的知识库
对于机器而言,图结构比文本当然更加友好。深度学习或者更为准确地说是表示学习的兴起,表明参数化的向量和神经网络是更适合机器完成快速计算的信息载体。比如,在自然语言中,可以为每个词学习一个向量表示;在图像处理中,也可以为视觉场景中的每一个对象学习一个向量表示;在知识图谱中,可以为每一个实体和关系学习一个向量表示。我们通常把这些向量化表示称为Embedding或“Distributed Vector Representation。”
如图1-5所示,如果将所有数字对象的向量表示投影到向量空间,我们会发现,同一个数字对象的不同图像的向量在空间距离更近。进一步地,通过将词语、实体、对象和关系等都投影到向量空间,就可以更加方便地在向量空间对这些语言、视觉和实体对象进行操作,甚至可以利用神经网络实现逻辑推理。
图1-5 向量知识库
1.1.3 知识图谱是一种世界模型
知识图谱本质上可以看作一种世界模型——World Model。纵观人工智能相关方向的发展历史,一直有一个核心的命题是寻找合适的万物机器表示,用于记录有关世界的知识。在传统的专家系统时代,人们发明了描述逻辑等符号化的知识表示方法来描述万物。人类的自然语言也是符号化的描述客观世界的表示方法。到了互联网时代,人们又设想用本体和语义链接有关互联网上发布的各种数据和知识,这也是知识图谱的起源之一,如图1-6所示。
图1-6 寻找合适的万物机器表示
随着表示学习和神经网络的兴起,人们发现数值化的向量表示更易于捕获那些隐藏的、不易于明确表示的知识,并且比符号表示更易于机器处理。知识图谱同时拥抱机器的符号表示和向量表示,并能将两者有机地结合起来,解决搜索、问答、推理和分析等多方面的问题。关于这一点的介绍也将贯穿本书的始终。
结合知识图谱、神经网络等新的人工智能技术手段,可以对专家系统进行重构。原有的知识库可以采用知识图谱的方式,让知识获取的手段更容易。除了传统的符号表示,也要考虑如何用向量表示实体、关系等知识。在知识获取方面,专家层面的经验为现代知识的构建提供了重要的输入,此外,现在还有设备传感数据、自动采集的日志数据、多种模态的数据等大量的机器数据。知识图谱在一定程度上可以起到桥梁的作用,将专家经验性的知识与机器数据通过比较有效的表示结合起来,如图1-7所示。
图1-7 利用知识图谱与神经网络重构专家系统
在推理引擎方面,传统的符号推理引擎有很多,由于有诸多瓶颈,例如对知识质量要求非常高,均未能实现大规模商业化应用。而现在的推理引擎可以在神经网络、表示学习等深度学习技术加持下实现更好的推理。在面向用户的交互方面,不再仅仅是简单查询,还可以实现搜索、智能问答和基于图分析的决策分析。并通过一些可视化的手段支撑对所有数据在各个维度的整体性分析,同时对所有推断结果提供可解释性。