2.3 基于开放网络知识库的信息检索

面向网络大数据海量、自由、免费、内容开放的特点,基于本体的开放网络知识库成为一种有效的知识结构化表示工具,进而为解决自然语言理解和Web信息检索中的问题提供了新的资源和方法。现有的大多数信息检索技术都是以单个词为处理对象[42]。从用户角度来讲,仅仅使用几个关键词就把检索要求描述清楚是一件很困难的事情。检索需求的模糊不清必然会导致检索结果的混乱;从关键词检索技术本身来讲,简单匹配方法常常会检索出很多非相关文档。在文档表示技术方面,目前的方法主要是基于向量空间模型(vector space model)理论[4344],以单个独立词为处理对象,并且假定词与词之间是相互独立的,然而在实际文本中,词与词之间是相互关联的,这也是Web搜索技术发展的瓶颈所在。基于本体的知识库系统的引入作为一种网络开放文本的表示方法,为信息检索优化的各个研究领域提供了结构化数据基础。

目前,信息检索服务已经逐渐从基于链接的信息检索引擎发展为基于知识的对象搜索引擎。对象(object)定义为实体(entity),对象之间的关联不仅仅是关键词或网页链接的关联,在基于本体的知识库系统中,概念、实例、属性等实体表征包含了更广泛的关系,既包含上下位等结构关系,又包括语义相似度等内容关系。利用知识库进行信息检索搜索引擎优化主要解决如下两个问题:一是利用若干关键词描述的检索要求不够明确,进而造成检索结果上的混乱;二是如何利用上下文语境信息对查询词和文档进行更好的语义表示。本节结合以probase和knowledge graph为代表的开放网络知识库系统,介绍信息检索优化的研究内容,包括意图感知、查询扩展和语义问答等。

2.3.1 意图感知

用户搜索意图,可以理解为用户通过搜索希望获取到的信息,可以量化为用户希望得到的检索结果集。通过关键词搜索的方式,用户输入的每个词背后都隐藏着更深层次的查询意图,而这些查询意图往往需要深入挖掘才能够获得,需要对用户检索意图进行建模,在搜索日志分析的基础上进行包括用户意图分类模型构建和用户意图分类特征研究等。Andrei[45]将搜索者的意图分为:为了查找具体的某个网站地址的导航型(navigational)、为了获取某种信息学到新知识的信息型(informational)和为了完成一个目标明确的任务的事务型(transactional)3个类别。现有研究表明,用户的意图具有隐性的特点,在其建模过程中通常涉及逻辑推理问题,引入本体思想,通过对各领域知识的深层次理解和规则推断,可以为意图感知提供新的方法保障。如今大规模知识库系统的出现,尤其是在知识库构建过程中融入了用户查询日志的相关语义内容,使得基于本体的用户意图感知大规模分析与应用成为可能。Cambria等人[46]提出让机器真正理解用户的意图,需要提供的不仅仅是关键词组合及其共现频率等,更需要提供知识层面的信息。融合知识库系统Probase和基于自然语言的语义网ConceptNet,使用基于奇异值分解(SVD)的多维度约简技术来挖掘和分析用户意图。Wen等人[47]基于Probase知识库推断查询的概念化含义,对应检索任务自动地给出话题级别的查询标识。如图2-3所示,查询中的一个词项(term)可以同时被归类为一个属性(attribute)或一个实体(entity),通过基于贝叶斯的方法计算,P(instance|concept),即在给定的概念(concept)中某个实例(instance)的典型和流行程度,并以此作为话题级别的量化判定依据。在计算上述概率的过程中融合了多种特征表示,包括:概念特征(conceptual features),即概念化聚类生成的概念相似度;词汇特征(lexical features),即N-char Jaccard相似度;样本特征(template features),即从实际用户的查询记录中根据编辑距离生成查询关键词之间的相似度;时间特征(temporal features),即根据时间间隔提取用户在同一个查询任务内进行连贯查询修正对应的相似度。最终给出量化的概念分布和话题分布,并以此作为用户意图的判定依据。进一步地,Guo等人[48]提出了基于意图感知的特征表达与度量机制,建模查询意图多样性和不确定性,实现精准的意图理解。形成了查询意图感知的查询相似度量(intent-aware query similarity)的概念:首先结合搜索关键词和点击记录,利用话题模型自动学习潜在的查询意图;其次,根据学习训练的结果,对应每个意图提取查询关键词表示。最后,对应不同的查询意图使用不同的度量方法,包括两两度量(pair-wise)方法(如余弦相似度(cosine similarity))、基于图(graph-based)的度量(如谱嵌入(spectral embedding))等。

图2-3 基于知识库的查询意图感知

2.3.2 查询扩展

Web搜索优化的另一个重要方向是查询扩展,即采用有效措施,在用户输入查询关键词的基础上添加相关词,为判断检索文档相关性提供更多的信息。在基于本体的知识库系统中,语义扩展查询将原始查询,尤其是短文本查询概念化(conceptualization),提取出更高精准度的查询语义,通过全局和局部的关联规则和用户查询日志扩展等方法再得到语义层面的扩展概念和实例。进而通过迭代修正查询关键词得到更好的检索效果。Song等人[37]提出了基于概率化知识库Probase的短文本查询概念化问题,在概念规模达到人类知识级别的基础上,采用贝叶斯推断机制对关键词或短文本进行概念化。如图2-4所示,首先从查询中提取实例(instance),再结合Probase知识库,为每个查询实例生成对应的概念向量,进一步地,在概念空间进行相似度检索,找到匹配的相关概念向量,即与原始查询语义相近的所有概念。与传统的潜在语义话题模型和基于WordNet、Wikipedia、Freebase单纯统计的方法相比,Song的算法在查询理解方面有更好的效果。Kim等人[49]从上下文关联角度分析了查询概念化扩展的问题,结合概率化话题模型LDA提出了在词句级别的概念化算法,在单词级别(word-level)根据相似度对语义相关性进行判断,进而推测出相关的隐性的实例,在句子级别(sentence-level)使用多种线性加权组合来匹配查询关键词集合,并使用了大量现实查询点击记录来辅助参数学习。结果表明,在Probase知识库的语料规模上结合话题模型可以得到优化的查询扩展效果,并且仍然有进一步提升的空间。可见,在语义概念层面解决查询扩展问题,很大程度上取决于作为扩展依据的知识库体量规模和关系结构。基于本体的知识库系统为各种文本挖掘技术,尤其是话题模型、文本聚类等提供了新的计算空间和优化方法,并推动了一系列新算法的研究。

图2-4 基于知识库的概念化查询扩展

2.3.3 语义问答

信息检索的一个目标是会帮助用户做事,而不是简单地给出建议;回答用户的问题,而不是简单地给出链接。其对应的研究领域为语义问答(question answering)。语义问答是近10年来热门的研究方向,主要采用信息检索和自然语言处理相关技术,构建针对人类语言描述问题的自动应答系统。问答系统需要一个结构化知识的数据库作为信息支撑,通常采用知识库的方式[5051]。文献[52]给出了语义问答系统的技术路线图,提出了问题语义分类、问题处理、上下文关联、数据源选择、答案提取和形式化等一系列相关解决方法。其中,对问答系统的语义分类体系(见表2-1)从自然语言处理的角度体现了类别与层次的详细划分,例如:“昨天是否下过雨?”属于确认型;“世界上人口最多的国家是?”属于概念型;“如何烤面包?”属于条件型;“我不知道到机场的路”属于声明型等。

表2-1 问题的语义分类体系

在问题语义分类的基础上,进一步结合知识库系统进行信息融合提升问答的准确率,通过查询空间的降维提升在线处理速度。现阶段研究成果主要集中于特定形式的问题、特定领域内的问题等,如回答时间地点等问题,回答术语定义等问题,依据人物传记回答问题;以及类型多样化的问题,如同一个问题多种语言表述,关于音频、图像、视频内容的问题等[53]。另外,从单一的知识源或少数算法出发,很难让语义问答系统达到接近人类的水平,IBM的沃森(Watson)[54]系统正是通过搜索与融合DBPedia、WordNet、Wikipedia和Yago等多种知识库,从多角度运用大量小算法,对各种可能的答案进行综合判断和学习,才具有了性能的鲁棒性。因此,下一阶段的研究将关注于融合多种不同的知识体系,针对共识的事实知识和特定领域的专业知识,建立统一的知识推理机制。