内容简介

本书比较全面、系统地介绍了深度强化学习的理论和算法,并配有大量的案例和编程实现的代码。全书核心内容可以分为3部分,第一部分为经典强化学习,包括第2~4章,主要内容有动态规划法、蒙特卡罗法、时序差分法;第二部分为深度强化学习,包括第6~8章,主要内容有值函数近似算法、策略梯度算法、策略梯度法进阶;第三部分重点介绍深度强化学习的经典应用案例——AlphaGo系列算法。另外,作为理论和算法的辅助,第1章介绍强化学习的模型,第5章简单介绍深度学习和PyTorch。

本书对理论、模型和算法的描述比较数学化,笔者力求做到用严谨、清晰、简洁的数学语言来写作;几乎每个算法配有一个或多个测试案例,便于读者理解理论和算法;每个案例都配有编程实现的代码,便于读者理论联系实际,并亲自上手实践。为降低读者编写代码的难度,本书所有案例的代码都是可以独立运行的,并且尽量减少了对依赖包的使用。

本书可以作为理工科相关专业研究生的学位课教材,也可以作为人工智能、机器学习相关专业高年级本科生的选修课教材,还可以作为相关领域学术研究人员、教师和工程技术人员的参考资料。