1.6 网络大数据挖掘和社会化计算

利用计算技术对网络大数据进行挖掘分析,发现蕴含的知识,研究社会运行的规律与发展趋势,是挖掘网络大数据的深层价值和实现社会行为可计算的主要途径。随着社会媒体的涌现,持续增长的用户数据在规模和复杂性上都有着指数式的攀升,导致传统的挖掘和计算方法在性能和效用上遇到了严重的瓶颈。基于内容信息的数据挖掘和基于结构信息的社会化计算是目前网络大数据挖掘和社会化计算领域的研究热点。

1.6.1 基于内容信息的数据挖掘

语言是社会媒体最重要的表现形式,文本是社会媒体中用户表达信息的最重要的方式。基于内容信息的数据挖掘包括网络搜索技术与实体关联分析等主要研究内容。

社会媒体的出现为互联网信息搜索提出了新的挑战,研究的热点从传统的海量数据抓取、索引结构优化和用户查询分析等转移到了排序学习算法,专注于提高检索质量。排序学习模型将文档表示为特征向量,以损失函数为优化目标,寻找在检索领域中常用的评价准则下最好的排序函数,常见的排序学习算法可以分为逐点(pointwise,如McRank[50])、逐对(pairwise,如RankBoost[51]、RankNet[52])和逐列(listwise,如ListNet[53]、AdaRank[54]、SVM-MAP[55])3类方法。现有模型在处理用户需求相关性、多样性和重要性等不同目标排序方面仍有不足。此外,社会媒体中需要关注数据的短文本特征,对简短关键词表达进行深入的理解和分析,掌握用户真实的查询意图[56]

命名实体是现实世界中的具体或者抽象但却具有特定意义的实体,从海量信息中获取其蕴含的内在知识,需要研究对命名实体、实体关系的挖掘。在社会媒体生成的海量网络数据中,实体类型越来越多,力度越来越细,关系越来越繁杂。对于实体关系的挖掘,研究人员提出了基于规则[57]和基于机器学习[58]的方法。2007年,Getoor等人提出统计关系学习是里程碑式的技术[59],突破了传统统计模型对于研究对象同类型、不相关的两个假设,可以更全面地表达领域知识。目前,实体和关系的挖掘仍是网络数据挖掘领域关注的研究问题,有很多亟待解决的问题,例如对新涌现出的实体的抽取与识别,挖掘结果的可用性和可理解性,大规模高效知识库、本体库语义网络的构建等。

1.6.2 基于结构信息的社会化计算

社会网络是将社会媒体中的用户作为节点、用户间的关系作为连边而构建的网络。它既是用户间社会关系的反映,也是用户之间进行信息交互的载体。具有关系的异质性、结构的多尺度性以及网络的动态演化性3方面特性。社会网络中个体因血缘关系或兴趣爱好等因素而形成了连接紧密的圈子,这种内部关系紧密而对外关系相对稀疏的结构被称为社区。社区结构是社会网络所普遍具有的结构特征,社区结构的存在对于网络的高效搜索、网络演化、信息扩散等具有重要意义。针对社区结构的研究可分为社区发现、社区结构演化等方面[60]

社区发现[61]旨在识别出网络固有的社区结构,按照节点间的连边关系把节点划分成若干节点组,使得节点内部的连边相对稠密,不同节点之间的连边相对稀疏。Girvan和Newman提出分裂式层次聚类方法[62],是一种自顶向下的社区分割过程;文献[63]提出模块度概念,采用一种被假定没有社区结构的网络作为参照网络,对于一个给定的网络划分,通过对比原有网络和参照网络中处于该划分的各个分量内部边的比例,给出一种度量网络划分质量的方法;对于重叠社区结构的研究,Palla等人[64]提出了一种基于完全子图渗流的社区发现方法,被应用到生物、信息、社会等网络中。进一步地,文献[65]定义新的网络模块度,采用聚合式层次聚类的方式,提出了能够同时揭示网络层次重叠社区结构(如图1-4所示)的社区发现方法。

图1-4 层次重叠社区结构示意图[65]见彩图

社区演化是网络自身结构与在其上频繁发生的交互过程相互作用的结果。社区演化分析主要研究社区随时间变化的情况,并分析导致这些变化的机制和原因,包括社区的形成、生长、缩减、合并、分裂和消亡等。在动态演化过程网络建模研究方面,Barabási和Albert提出了著名的BA网络生成模型[66],建立了网络微观机制和宏观拓扑结构特征的关联规律。文献[67]基于完全子图渗流社区发现方法研究社区演化,得出了小社区稳定性是保证其存在的前提而大社区的动态性是存在的基础的结论。随着含时间数据的积累,关于社区演化的研究将会是一个热点。