前言

随着电子政务数据、移动终端数据、网络日志、社交媒体数据、物联网传感器的流式数据、企业长期积累的业务数据等的不断增加,大数据的概念应运而生,其在现代社会和经济活动中发挥的作用也日益重要。如果能够将这些数据互通共享、融合分析,有效地利用这些数据潜在的价值,则会产生巨大的经济和社会效应。因此,探索研究跨域、跨数据源的数据服务问题,既是现实的迫切需要,也是未来的重要发展方向之一。

然而,在现有的方法中,针对大数据环境下的跨域、跨源、跨宿主的数据整合与服务,无法让每个应用(数据消费者)都获知所有源数据的模型、存储等细节,因此,通过应用主导的数据整合服务模式是不可行的;通过中间层代理可以减轻用户应用的负担,但是本质上并没有改变所有数据源开放的需求,只是把问题从用户推给了中间件系统;数据仓库技术主要针对小规模、企业级应用的数据集成与服务,不适于大数据环境。

数据虚拟化技术通过对数据资源的逻辑虚拟化,实现数据的集成管理,为用户应用提供统一的访问接口,为各种信息消费者提供跨数据源整合的数据服务。数据消费者不用知道数据从哪些数据源来,如何进行整合,以及数据的存储位置与方式、访问接口等细节。将数据处理的技术细节对用户应用隐藏,从而实现用户以完全透明的方式访问所需数据。

本书将探讨以数据虚拟化思想结合面向服务架构来解决大数据环境下的跨域、跨源、跨宿主的数据服务问题。研究内容主要包括以多源异构数据的集成为目标,借助数据虚拟化的方法为用户提供透明的数据服务,并介绍数据虚拟化的概念、参考模型、实现方法以及相关的实现案例。重点解决多源、异构数据集成中涉及的数据快速发现、元数据的组织、异构数据处理、多源抽取数据流的实时处理,以及数据服务引擎的问题。上述研究内容可以为多源、异构数据的收集、存储、处理以及服务等提供重要的理论、技术和实践方法,适合正在或即将从事大数据处理研究的学者参考,也适合计算机、通信等相关领域的本科生、硕士生、博士生作为教材使用。

在本书的编写过程中,刘媛妮、赵国锋主要负责全书整体结构的设计、内容组织,同时本书也得到了北京邮电大学的李昕、北京理工大学的李杨、中国联通网络技术研究院的程新洲,以及重庆联通的李明欣等各位作者的大力支持,参与本书整理和编写的研究生有许晓丹、柳宛、李慧聪、李垚焬、黎北河等,也在此一并致谢。

感谢人民邮电出版社有限公司致力于本书出版的所有人员,特别是指导和帮助我的代晓丽编辑,她对研究热点、前沿技术的信息敏感和远见,促成了本书的顺利出版。

由于作者水平有限,恐有不当和遗漏之处。我们真诚地希望同行和读者朋友不吝赐教,以促进我们改进工作。请将您的建议发往:liuyn@cqupt.edu.cn,我们将不胜感激!此外,如希望获得更多信息,请关注作者所在课题组的最新学术进展。

作者