序言

强化学习也称再励学习、评价学习,是一种重要的机器学习方法,在智能控制机器人、分析预测等领域有许多应用,是AlphaGo Zero和AlphaZero的核心技术。其本质是解决决策问题,针对一个具体问题得到一个最优的策略,使得在该策略下获得的奖励最大。强化学习的思想与人类的学习过程有很大的相似性,都是依靠环境的反馈来调整行为,在不断地交互和试错中学习,因此强化学习被认为是迈向通用人工智能的重要途径。

正因为强化学习的强大潜力,使其成为继深度学习之后,学术界和工业界追捧的又一热点。很多工业界的巨头都在不断探索强化学习的实际应用,如机器人控制、无人驾驶、游戏博弈,以及制造业、电商广告推荐等。

本人主要从事商务智能应用、社会网络挖掘算法等领域的研究,也在持续研究机器学习、人工智能等相关前沿知识,一年前开始关注强化学习。强化学习是一门综合性学科,涉及的概念和算法很多,再加上国内高校也没有开设系统性课程,中文资料比较少,难以快速上手,所以学习门槛比较高。

机缘巧合,我有幸结识了邹伟先生,读了邹伟先生和鬲玲女士联合推出的新书《强化学习》,收获很大。该书的叙述线索非常清晰,从马尔可夫决策模型开始,先是给出了基础的查表型强化学习方法,接着是联合的深度强化学习算法,最后用强化学习在博弈领域的应用收尾,层次分明,结构清晰,难度循序渐进,全无枝枝蔓蔓之感。该书不仅解释了算法的原理及流程,还深入分析了算法之间的内在联系,可以帮助读者举一反三,掌握算法精髓。同时,在每一章节结尾,均给出了丰富的实例,通过实例来描述算法的运行步骤,验证算法的效果,可以帮助读者快速地将算法应用到实践中去。

该书是一本较为难得的强化学习类书籍,内容全面、翔实,语言简洁、易懂,实用性强,值得精读。该书既适合强化学习零基础的人员入门学习,也适合相关科研人员研究参考。各位读者在学习强化学习相关知识时,如果将该书作为主要阅读教材,并跟随书中的实例和代码实现并验证相关算法,势必会取得事半功倍的效果。最后,希望无论是强化学习领域的初学者,还是有经验的相关领域科研人员,均能从该书中收获满满!

黄 岚

吉林大学计算机科学技术学院

2019年12月