1.3 网络大数据带来的挑战

如上所述,网络大数据面临着来自诸多方面的挑战。但从研究的角度来说,根本挑战在于其复杂性、不确定性和涌现性。对这3个基本特性的研究决定着网络大数据的发展趋势、研究进展和应用前景。

1.3.1 网络大数据的复杂性

复杂性造成网络大数据存储、分析、挖掘等多个环节的困难。网络大数据的复杂性主要包括数据类型的复杂性、数据结构的复杂性和数据内在模式的复杂性。

(1)数据类型复杂性 信息技术的发展使得数据产生的途径不断增加,数据类型持续增多。相应地,则需要开发新的数据采集、存储与处理技术。例如,社交网络的兴起,使得微博、SNS个人状态信息等短文本数据逐渐成为互联网上的主要信息传播媒介。与传统的长文本不同,短文本由于长度短,上下文信息和统计信息很少,给传统的文本挖掘(如检索、主题发现、语义和情感分析等)带来很大的困难。相关的研究包括利用外部数据源(如Wikepedia[6],搜索结果[7]等)扩充文档,或者利用内部相似文档信息来扩充短文本的表达[8]。然而,无论是利用外部数据,还是利用内部数据,都可能引入更多的噪声。另一方面,不同数据类型的有机融合给传统的数据处理方法带来了新的挑战。例如在社交媒体的研究当中,地域信息与内容的融合[9]、时空信息与内容信息的结合[10],等等。

(2)数据结构的复杂性 传统上处理的数据对象都是有结构的,能够存储到关系数据库中。但随着数据生成方式的多样化,如社交网络、移动计算和传感器等技术,非结构化数据成为大数据的主流形式。非结构化数据具有许多格式,包括文本、文档、图形、视频,等等。非结构化数据当中蕴含着丰富的知识,但其异构和可变性质也给数据分析与挖掘工作带来了更大的挑战。与结构化的数据相比,非结构化数据相对组织凌乱,包含更多的无用信息,给数据的存储与分析带来很大的困难。目前相关的研究热点,包括开发非关系型数据库(如Google的BigTable,开源的HBase等)来存储非结构化数据。Google提出了MapReduce计算框架,Facebook等公司在此基础上实现了Hadoop、Hive之类的分布式架构,对非结构化数据做基本的分析工作。

(3)数据模式的复杂性 随着数据规模的扩大,描述和刻画数据的特征必然随之增大,而由其组成的数据内在模式将会以指数形式增长。首先,数据类型的多样化决定了数据模式的多样化。不仅需要熟悉各种类型的数据模式,同时也要善于把握它们之间的相互作用。这种面向多模式学习的研究需要综合利用各个方面的知识(如文本挖掘、图像处理、信息网络,甚至社会学,等等)。为此,Han提出用网络来描述异质数据间的关系,同时提出了“元路径(meta-path)”的概率来刻画目标数据模式[11]。这样,通过定义合适的元路径,便可在数据网络中挖掘有价值的模式。其次,非结构化的数据通常比结构化数据蕴含更多的无用信息和噪声,网络数据需要高效、鲁棒的方法来实现去粗取精,去冗存真。搜索引擎就是从无结构化数据中检索出有用信息的一种工具。尽管搜索技术在工业上已经取得极大的成功,但仍然存在很多不足(如对一些长尾词的查询,对二义性查询词的理解等),都有待长足的进步。另外,网络大数据通常是高维的,往往会带来数据高度稀疏与维度灾难等问题。在这种情况下,由于数据模式统计的显著性较弱,以往的统计学习的方法大多针对高频数据模式挖掘,因此难以产生令人满意的效果。近年来,受实际应用驱动,高维稀疏问题成为统计学习领域的热点问题[12]。相关理论研究发现,基于稀疏表达的学习方法(如LASSO等),在获得较好学习效果的同时,还具有更高的效率和鲁棒性[13]

1.3.2 网络大数据的不确定性

不确定性使得网络数据难以被建模和学习,从而难以有效利用其价值。网络数据的不确定性包括数据本身的不确定性、模型的不确定性和学习的不确定性。

(1)数据的不确定性 原始数据的不准确,以及数据采集处理粒度、应用需求与数据集成和展示等因素使得数据在不同维度、不同尺度上都有不同程度的不确定性。传统的侧重于准确性数据的处理方法,难以应对海量、高维、多类型的不确定性数据。具体而言,在数据的采集、存储、建模、查询、检索、挖掘等方面都需要有新的方法来应对不确定性的挑战[14]。近年来,概率统计的方法被逐步应用于不确定性数据的处理中。一方面,数据的不确定性要求使用不确定的方法加以应对;另一方面,计算机硬件的发展也为这类方法提供了效率、效能上的可能。目前,该领域研究尚浅,在学术界和产业界尚有大量问题亟待解决。

(2)模型的不确定性 数据的不确定性要求对数据的处理方式能够提出新的模型方法,并能够把握模型的表达能力与复杂程度之间的平衡。在对不确定数据的建模和系统设计上,最常用且朴素的观点是“可能世界模型”[15]。该观点认为,在一定的结构规范下,应将数据的每一种状态都加以刻画。但该种模型过于复杂,难以用一种通用的模型结构来适应具体的应用需求。在实际应用中,往往采取简化的模型刻画不确定性数据的特性,如独立性假设、同分布假设,等等。尤其值得注意的是,概率图模型[16]由于具有很强的表达能力而且可对数据相关性进行建模,因此已被广泛应用在不确定数据的建模领域。另外,在数据的管理和挖掘上,不确定性模型的构建应当考虑到数据的查询、检索、传输、展示等方面的影响[17]

(3)学习的不确定性 数据模型通常都需要对模型参数进行学习。然而,在很多情况下找到模型的最优解是NP问题,甚至找到一个局部最优解都很困难。因此,很多学习问题都采用近似的、不确定的方法来寻找一个相对不错的解。但在大数据的背景下,传统的近似的、不确定的学习方法需要面对规模和时效的挑战。随着多核CPU/GPU的普及以及并行计算框架的研究,分而治之的方法被普遍认为是解决网络大数据问题的一条必由之路。如何将近似的、不确定的学习方法拓展到这种框架上成为当前研究的重点。近年来,不少高校和研究机构,在该领域进行了一定的探索。如在矩阵分解运算中对数据进行分块的计算方法能够利用多台机器并行计算,从而提高数据的处理速度[1819]。此外,除了学习模型参数值的不确定外,模型的复杂性和参数个数也受到不同领域、不同数据类型和应用需求的影响而不能提前确定。近年来,在统计学习领域,非参模型方法的提出[2021]为自动学习出模型复杂度和参数个数提供了一种思路。但该类模型计算上较为复杂,如何分布式、并行地应用到网络大数据的处理上,还是一个开放问题。

1.3.3 网络大数据的涌现性

涌现性是网络数据有别于其他数据的关键特性。涌现性在度量、研判与预测上的困难使得网络数据难以被驾驭。网络数据的涌现性主要表现为模式的涌现性、行为的涌现性和智慧的涌现性。

(1)模式的涌现性 在多尺度、异质关系的网络数据中,由于不同的数据在属性、功能等方面既存在差异又相互关联,因此使网络大数据在结构、功能等方面涌现出了局部结构所不具备的特定模式特征。在结构方面,数据之间不同的关联程度使得数据构成的网络涌现出模块结构。在功能方面,网络在演化过程中会自发地形成相互分离的连通小块[222324]。这一涌现性结果对于研究更多的社会网络模型和理解网络瓦解失效的发生有重要意义。

(2)行为的涌现性 随着数据采集技术的不断发展,人们得到的很多数据都具有时序性,而社会网络中个体行为的涌现性则是基于数据时序分布的统计结果。在社会网络中有较大相似性的个体之间容易建立社会关系。通过研究Schelling给出的个体社会关系网络模型发现,网络在演化过程中会自发地形成相互分离的连通块,这一个体行为涌现的结果不依赖于初始网络的拓扑结构,对于研究更多社会网络模型和理解行为涌现的规律具有重要意义[25]。著名的网络科学家Barabasi研究发现,人们发邮件的数量在一天的某些时刻会出现“爆发”现象,并发现每个人连发两封邮件之间的时间间隔涌现出幂率分布特征。此外,自然界和社会中个体之间不同的竞争模式会导致不同的同步状态的涌现性。

(3)智慧的涌现性 网络数据在没有全局控制和预先定义的情况下,通过对来自大量自发个体的语义进行互相融合和连接而形成语义,整个过程随着数据的变化而持续演进,从而形成网络数据的涌现语义,也可以称之为智慧涌现。作为一种特殊的智慧涌现形式,众包正在通过互联网和社会网络快速发展,成为一种新的商业模式、新的数据产生模式和新的数据处理协作模式。

总体而言,尽管与网络大数据研究密切相关的数据库、数据挖掘、机器学习、知识工程等领域近些年来都有很大的进展,甚至在许多不同的领域得到了深入的应用,但是,由于网络大数据规模海量、关系复杂等根本特性,使得相关领域的研究成果难以被直接借鉴于网络大数据的研究。因此,网络大数据的研究需要一套全新的理论和方法来进行方向性的指导。但到目前为止,甚至连大数据的精确定义还缺乏一个统一的标准。网络大数据科学与技术这门学科的内涵和外延还缺乏严格的限定和翔实的论证;在大数据的环境下,传统的“假设、模型、检验”的科学方法受到质疑,从“数据”到“数据”的第四范式还没有建立,需要一个完备的新的理论体系来指导该学科的发展和研究。