前言

当人类开始发明计算机的时候,就已经在思考如何让计算机获取“智能”。如今,伴随着社会的日益数字化,人类社会进入大数据时代,海量的数据和云计算使人工智能进入一个快速发展期。作者在平时科研与教学中发现,许多学生对人工智能与大数据领域表现出了极大的兴趣。市面上虽然有许多优秀的相关类型的图书,然而,它们大部分都假设读者已经具备了很高的数学基础,这是许多学生尤其是非数学系的本科生所不具备的。除此之外,有的图书对细节介绍非常详尽,这使初学者容易陷入其中而忽视了整体。有的图书则完全介绍理论,也容易导致初学者不会学以致用。因此,作者萌生了写一本真正适合初学者的大数据与人工智能图书的想法,希望能指引更多有志于研究该领域的学习者少走一些弯路,顺利迈入人工智能的大门。

全书共7章,大体可分为4个部分。第一部分是第1~2章,介绍人工智能和大数据的基本知识;第二部分是第3~4章,介绍一些最经典而常用的机器学习算法和常用的大数据处理平台;第三部分是第5~6章,介绍一些进阶知识,包括一些机器学习算法的并行化实现和深度学习的内容;第四部分即第7章是实践部分,用案例来学习前面学习的算法是如何应用在实际中的。其中,第三部分的两章相对独立,读者可以根据自己的兴趣和时间情况选择使用。

作者认为,对于初学者而言,应该适当增加学习的广度而降低学习的深度。本书对数据工程、机器学习、大数据以及机器学习的并行化实现、深度学习均予以介绍,已经涵盖了大部分人工智能的基础性内容。需要指出的是,理论上机器学习只是人工智能的一种解决方案。然而,近年来,机器学习已经在人工智能领域中占据了绝对主导地位。因此本书作为一本旨在服务初学者的图书,并不会区分它们。作者在本书中试图尽可能地少使用数学知识,对于一些不可避免的部分,力求展现其中的精华,同时亦在本书的最后介绍了一些确实不可避免的线性代数以及概率论知识。作者在保证广度和淡化深度的同时,避免了罗列知识,而是有机地将各方面知识串接起来。对于应用实践部分,一些基础性编程语言的掌握是必不可少的,作者在附录中介绍了Java和Python,供有需要的读者阅读。

本书的作者都是在大数据和人工智能领域具有丰富教学实践经验或研究经验的专家,可以说凝结了多人的智慧和心血,其中北京邮电大学未来网络理论与应用实验室的姚海鹏副教授带领研究生团队编写了第 1、3、4、5、6、7 章,北京工业大学未来网络高精尖创新中心的王露瑶博士参与编写了第2章。中国工程院院士刘韵洁对本书做了重要的指导。全书由姚海鹏副教授通稿。

特别感谢北京邮电大学未来网络理论与应用实验室的研究生付丹阳、刘惠文、王淇艺、张博、陈旭、董理、刘冲以及北京工业大学未来网络高精尖创新中心的研究生李飞翔、买天乐、张贵娟、郭倩影、范春明、贾耀宗、张楠。他们为本书的调研、材料收集、书稿撰写做了大量的研究工作,同时也结合自身研究实际,为本书提出了大量建设性建议。

大数据和人工智能发展迅速,目前已发展成为多个学科。作为一本基础性教材,本书希望能够带领读者入门,为读者进一步在这个领域深造打下坚实的基础。作者自认为才疏学浅,同时编写书稿时间也比较仓促,书中个别谬误之处在所难免,还望相关专家学者批评指正。

姚海鹏

2017年7月于北京