前言

机器学习是人工智能的基础和研究热点,按照不同的学习范式分类,机器学习可以分为监督学习、非监督学习和强化学习三大板块。其中,强化学习是一种模拟生物智能体学习最优决策过程的机器学习方法,其主要思想是智能体通过与环境的不断交互获得经验,并从经验中逐渐学习与环境交互的最佳策略。近年来,随着人工智能的发展,强化学习在自动控制、最优决策等领域获得了广泛应用。特别是在将深度学习和强化学习结合之后,深度强化学习已经成为当今机器学习研究的热点之一。

强化学习并不是一个全新的机器学习领域,它之前也被称为再励学习、评价学习和增强学习,是一种交互式学习方法。其前身可以追溯到动态规划法,但经典强化学习方法因其理论和算法的局限,只能处理极少数简单的机器学习问题,因此并不被人所熟知。直到2016年基于深度强化学习的围棋程序AlphaGo的横空出世,并创历史地击败了人类大师级选手,深度强化学习才大张旗鼓地进入了公众视野。现在,深度强化学习已经不仅是科研工作者的研究课题,而且是实实在在地在生产实践中使用的技术手段。例如,韩国围棋院使用基于深度强化学习的围棋程序来训练人类棋手,使人类棋手的棋艺取得了巨大进步;谷歌公司的DeepMind团队已经着手研究用深度强化学习技术来控制“托克马克”装置,为人类制造“小太阳”提供了新的解决方案;笔者所在的团队也在研究基于深度强化学习的无人机空中格斗控制,这是无人机空战的未来发展方向。

本书比较全面、系统地介绍了深度强化学习的理论和算法,并配有大量的案例和编程实现的代码。全书的核心内容可以分为3部分,第一部分为经典强化学习,包括第2~4章,第2章介绍动态规划法,提出了值迭代和策略迭代两个基础框架,这是强化学习的最初雏形,也是所有深度强化学习框架的基础;第3章介绍蒙特卡罗法,将数理统计中的蒙特卡罗方法引入值迭代和策略迭代,这是经典强化学习走向实用性的一大步;第4章介绍时序差分法,将动态规划和蒙特卡罗法相结合,提出了适用范围更广、学习效率更高的强化学习算法。

第二部分为深度强化学习,包括第6~8章,第6章介绍值函数近似算法和早期的深度强化学习方法,将函数近似的方法引入强化学习是结合深度学习和强化学习的理论基础,为后续开发功能更强大的深度强化学习方法奠定了基础;第7章介绍策略梯度算法,这是动态规划法中的策略迭代框架在深度强化学习中的体现,策略梯度法解决了用近似函数来表示策略的问题,大大拓展了深度强化学习的理论空间和应用范围;第8章介绍了基于策略梯度法的一些进阶算法,这些算法都是目前最前沿的深度学习算法框架。

第三部分为深度强化学习的经典应用案例——AlphaGo系列算法,包括第9章诸节,比较详细地介绍了AlphaGo系列算法的来龙去脉,以及各种方法的具体技术细节。

另外,作为理论和算法的辅助,第1章介绍了强化学习的数学模型和由OpenAI开发的环境库Gym,第5章简单介绍了深度学习的理论和PyTorch编程框架。

2021年暑假,笔者接到工作所在单位——西南科技大学数理学院的任务,要我开设一个深度强化学习暑期讲习班。这是一个很艰巨的任务,虽然之前也零零散散地给我的研究生讲过一些深度强化学习的内容,但很不成系统,当时也没有比较合适的教材可以使用,更别说现成的视频、PPT、案例等教学资源了。经过了两三个月的准备,讲习班还是顺利开班了,一起学习的有数理学院对深度强化学习感兴趣的高年级本科生、学校相关专业的研究生,还有我的老师——重庆师范大学数学科学学院白富生教授推荐的研究生,他们在酷暑天从重庆赶来捧场,特别令我感动。本来也想将讲义整理成书,正好接到了清华大学出版社赵佳霓编辑的出书邀约。于是,从2021年暑假开始,每天上午坐在书桌前写上一段就成了这一年来雷打不动的工作,但从未写过书的我还是低估了写作的难度,因为深度强化学习的前沿知识更新速度还是很快的,大部分内容都没有比较系统的资料可以参考,所以只能先阅读近期发表的论文原著,理解并掌握了之后再系统地写出来,案例编程也是一项耗时耗力的工作,经常深夜一两点家人们都已熟睡时,我还在调试程序,有时一连两三周也不能写上一节,真正让我体会到了“两句三年得,一吟双泪流”的感觉。要特别感谢赵佳霓编辑在我写作过程中给予的帮助,每次我发过去的书稿赵编辑都会很快反馈修改建议,提前帮我规范了很多格式和排版问题,让我节省了在这方面的大量时间和精力。

要感谢本书的另外一位作者,中国空气动力研究与发展中心的章胜副研究员,章老师写了第8章部分和第9章全部的初稿,并给其他章节提出了宝贵的修改建议,没有他的帮助,本书不可能这么快完稿。要感谢我的恩师吴至友教授、AdilBagirov教授,以及在我求学道路上无私帮助过我的白富生、赵克全、吴昌质、杜学武等老师,是他们成就了现在的我。要感谢我的研究生赵玥茹、王民阳、王宇、吴敏,他们为本书的校对工作付出了大量时间。最后,要特别感谢我的家人,特别是两个孩子,他们时不时地会询问:“爸爸,你的书写得怎样了?”这是我能够坚持写下去的巨大动力。

最后,由于个人能力有限,书中难免有不当和错误之处,还望读者海涵和指正,不胜感激。

龙强

于绵阳 西南科技大学

2022年10月30日