第1章 Web话题检测与跟踪的研究现状

1.1 Web话题检测与跟踪的研究背景

随着网络和大数据技术的飞速发展,在网络媒体上,Web新闻已成为一种非常重要的信息资源。由于Web新闻传递给用户的信息量很大,所报道事件的真实性和广泛影响性很强,并且随着社会事件的频发,其更新与传播速度也很快,因此公众已将它视为话题与事件传播的一种重要数据来源和主要途径。与此同时,针对公众的实际需求,研究者也已将如何从海量的Web新闻中检测话题并对其进行跟踪分析确定为未来Web文本挖掘的一个重要探究方向。

通过网络上及时发布的Web新闻,用户能够获知当前发生在社会上的事件,而随着这些事件的不断发生,用户所关注的Web新闻大数据中又蕴含着有待检测的Web层次化话题。因此,面对这些Web新闻大数据,用户更渴望从中获知能够体现数据量大、时效性高、可疑性低、多样性强、蕴含价值高等特点的大数据信息。这些信息又能反映出社会突发事件从缘由开始,逐步深入到发展、曲折、高潮,直至最终结束的过程。

在如图1.1所示的社会事件发生时间轴上,公众对德国A320客机坠毁事件的关注经历了救援、遗体、身份等多个过程,而在上述过程中的每个关注点上,又有海量的Web新闻给予支持,从研究者的角度,可将其视为由一系列事件支持的话题。因此,在图1.1中,德国A320客机坠毁事件的副驾驶等话题均可衍生出一系列事件,并形成一个针对这些事件的子时间轴。

图1.1 社会事件发生时间轴

综上所述,笔者将以Web新闻作为研究语料,通过分析Web新闻实例中的多维特征,对其进行话题检测与跟踪。在该过程中,可从Web新闻结构与内容角度入手,分析Web新闻的五元组语义描述,以提高话题检测的准确率;可从Web新闻内容角度入手,评价Web新闻的实用性,以提高话题检测质量;可从Web新闻使用角度入手,追踪Web新闻的使用行为,以提高话题检测与跟踪的准确率。通过上述三个过程,可深度挖掘出Web新闻中所蕴含的具有潜在价值的信息,同时满足当前社会与技术双重背景下的应用需求。

针对上述研究分析,笔者将从大数据背景下的Web层次化话题检测与跟踪的目标出发,凝练出亟待解决的具有实际研究意义的创新点与难点,并以基于社会事件的话题检测与跟踪分析作为应用成果,完成对关键技术的研究。在该过程中,针对Web新闻所具有的多维特征,阶段性应用成果可验证理论上的研究方法,而理论上的研究方法又可为应用成果的实现奠定基础。

如图1.2所示,笔者设计了研究内容框架,并将完成如下研究。首先,面对发生的社会事件,针对已发布的海量Web新闻,研究基于大数据五元组语义描述分析的话题检测关键技术;其次,针对五元组语义形式化下的主题Web新闻实例,研究基于大数据实用性评价的话题检测关键技术;最后,针对五元组形式化下的主题Web新闻实例,以及实用性评价结果与使用行为记录,研究基于大数据使用行为分析的层次化话题检测与跟踪关键技术。基于上述研究过程得出的研究成果可应用到社会事件背景下的话题检测与跟踪分析中。

(1)基于大数据五元组语义描述分析的话题检测关键技术。

面对发生的社会事件,针对已发布的海量Web新闻,该关键技术主要解决两个关键问题。第一,如何对海量Web新闻进行主题实例增量提取,以获取五元组语义描述分析的语料;第二,如何分析出Web新闻的五元组语义形式化表示,以描述检测出的话题。该关键技术是研究过程中的第一个难点,通过实验分析可构建能够描述话题的Web新闻语义特征库。

图1.2 研究内容框架

(2)基于大数据实用性评价的话题检测关键技术。

针对五元组语义形式化下的主题Web新闻实例,该关键技术主要解决三个关键问题。第一,如何对能够描述话题的Web新闻实例进行语义时效分析,以标注时效特征;第二,如何对能够描述话题的Web新闻实例进行语义真实分析,以标注真实特征;第三,基于时效特征与真实特征,如何对能够描述话题的Web新闻实例进行实用特征分析,以标注实用特征。该关键技术是研究过程中的第二个难点,通过实验分析可构建能够评价所检测话题的Web新闻实用特征库。

(3)基于大数据使用行为分析的层次化话题检测与跟踪关键技术。

针对五元组语义形式化下的主题Web新闻实例,以及实用性评价结果与使用行为记录,该关键技术主要解决两个关键问题。第一,如何挖掘出用户所关注的话题,以跟踪其演化过程;第二,如何挖掘出用户所关注话题下的衍生事件,以将其应用到社会事件背景下。该关键技术是研究过程中的第三个难点,通过实验分析可构建Web新闻话题语料库和Web新闻事件语料库。

基于上述研究分析,笔者将从如下角度考虑如何表示社会事件背景下的话题应用效果,体现出研究成果的应用价值。第一,在用户检索Web新闻过程中所反映出的被关注话题;第二,在被关注话题下的一系列衍生事件;第三,支持话题和事件的Web新闻实例大数据集。

目前,在现有的大数据背景下的Web层次化话题检测与跟踪分析方法中存在如下问题。第一,缺乏中文文本语料对其语义描述的分析;第二,缺乏中文文本语料对其实用性评价的分析;第三,缺乏从使用行为角度对中文文本语料的逻辑结构关系的分析,没有形成一个统一的分析体系框架。因此,针对话题检测与跟踪分析过程中存在的关键问题,笔者以中文Web新闻语料作为研究对象,提出了一个大数据背景下的Web层次化话题检测与跟踪研究框架。在该框架的指导下,研究过程具有如下四个特点。第一,所分析的Web新闻语料数量众多;第二,所研究的Web新闻语义特征复杂;第三,所评价的Web新闻语料实用特征明显;第四,所分析的Web新闻语料话题检测与跟踪过程多样。

针对上述研究分析,以及非结构化的中文Web新闻较难被计算机理解等问题,笔者主要从如下三个方面开展逐步深入的研究。第一,为了提高话题检测的准确率,研究基于大数据五元组语义描述分析的话题检测关键技术;第二,为了提高话题检测质量,研究基于大数据实用性评价的话题检测关键技术;第三,为了提高话题检测与跟踪的准确率,研究基于大数据使用行为分析的层次化话题检测与跟踪关键技术。

综上所述,笔者的研究过程对计算机科学与技术学科发展,以及Web文本挖掘技术研究做出了贡献,并为话题的拓展应用提供了有力的支持。在笔者的研究过程中,主要的创新点体现在如下三个方面。

(1)五元组语义描述分析方面。

笔者提出了一种基于大数据五元组语义描述分析的话题检测关键技术,该关键技术主要包括如下两种技术。第一,主题实例增量提取技术;第二,五元组语义形式化分析技术。该关键技术充分考虑了如下三个方面的内容,以降低Web新闻实例聚类的复杂性,并提高Web新闻话题检测的准确率。第一,Web新闻实例所归属的社会事件背景;第二,Web新闻数量随着社会事件发展的变化;第三,将非结构化的Web新闻内容转储为结构化的五元组语义描述。

(2)实用性评价方面。

笔者提出了一种基于大数据实用性评价的话题检测关键技术,该关键技术主要包括如下三种技术。第一,语义时效分析技术;第二,语义真实分析技术;第三,实用特征分析技术。该关键技术充分考虑了如下两个方面的内容,以提高Web新闻话题检测的准确率。第一,Web新闻实例所具有的基于时效性和真实性的实用特征;第二,所检测话题的Web新闻实例质量。

(3)使用行为分析方面。

笔者提出了一种基于大数据使用行为分析的层次化话题检测与跟踪关键技术,该关键技术主要包括如下两种技术。第一,话题检测技术;第二,事件检测技术。该关键技术充分考虑了如下两个方面的内容,以降低话题检测的复杂性,并提高话题跟踪分析的准确率。第一,Web新闻实例所具有的使用行为;第二,社会事件背景下所具有的话题及其演化对象之间的逻辑层次关系。