2.5 研究展望

基于开放网络大数据的知识库,为人们深入利用网络大数据的价值提供了有效的途径。目前,虽然在国内外已有一些以开放网络数据为基础的知识库,并兴起了一些新兴的应用,但无论知识库的构建、更新还是应用,都还不能完美地满足人们的应用需求,也就意味着,每个方向都有极具挑战性的工作。面对网络大数据的开放网络知识库的建设和应用的研究,还处于起步阶段,仍有大量问题需要研究和解决。

(1)在开放网络知识库的创建和更新中融入群体智慧。由于开放网络知识库的来源数据具有冗余、噪声、不一致等特点,开放网络知识库的构建在数据预处理阶段面临很大的挑战。这就需要发挥群体智慧(collective intelligence),对数据进行预处理或者直接进行知识生产。例如,维基百科等在线百科知识就在很大程度上调动了每个个体的积极性,通过个体对在线页面的编辑,将无结构化数据直接转化为半结构化和结构化数据。对知识库的更新也是如此,对海量知识的更新可以通过每个个体将整个知识分割为若干部分,然后每个个体负责相关部分的更新工作,最后将每个部分的更新结果合成一个完整的更新结果,即采用众包的方式来完成。目前对知识库的构建和更新工作,在群体智慧的利用方面仍有很大的空间。

(2)开放网络知识库的实时感知与自动更新。对开放网络知识库的实时感知是指开放网络知识库能够实时感知数据源的变化,包括数据规模的扩大、数据内容的变化等。在实时感知的前提下,对知识库内的知识做出自动的更新。这就需要知识库在构建时能够充分融入知识的时间信息和空间信息,实时跟踪这些时空信息的变化。不仅如此,结合知识自身的属性信息、关系信息以及知识变化的一般规律,知识库还应具备对知识变化的判断能力,如建立一套知识自动更新的公理或命题逻辑,刻画知识变化的规律。这样,知识库就能完全或部分摆脱手动更新的手段,真正实现智能化。

(3)通用知识库与领域知识库相结合,实现有效跨库映射。领域知识库是指知识库建模的是某个特定领域,或现实世界的一部分。领域知识表达的是适合于该领域的那些术语的特殊含义,可以用来构建针对特定任务的专业化知识库。通用知识库是指由若干个领域知识中普遍使用的共同对象构成的模型,收录核心词表,可以用来描述一套领域中的对象。领域知识库可以通过对库中实体的概念化过程而得到通用知识库,反过来,通用知识库也可以通过对库中概念的实例化来得到领域知识库。构建通用知识库和领域知识库的一个好处在于,对具有相同通用知识库的多个领域知识库,可以进行知识库的映射工作,如映射具有相同概念的实体,实现跨库间实体的关联和映射。

(4)实现知识库的跨语言融合。多语言知识库是目前研究的热点问题。由于单语种的数据源经常存在知识表达不完整的情形,融入多语种可以更好地弥补单语种的缺陷,同时可以充分利用多语种在表达知识方式上的互补性。这就需要在多个语种间实现知识的融合,即构建多语种知识间的映射关系。对多个语种中同时出现的知识进行匹配和关联,将仅在某些语种中出现的知识映射到其他语种。

(5)通过计算,实现对潜在知识的推断和未来趋势的预测。对知识库中潜在知识的推断和未来知识的预测是知识库智能化的体现,这既有利于知识库的自我更新,也有利于支持对知识库中实体的线索挖掘。通过对知识计算的内在规律和机理的研究,可以更好地理解知识间的关系、知识的形成和存在方式以及知识变化和发展的内在规律,从而从根本上实现知识的推理和预测,支持建立在推断和预测基础上的应用。