1.1.2 强化学习的历史

强化学习先后经历了3条主要发展路线。第1条发展路线是心理学上模仿动物学习方式的试错法;第2条发展路线是最优控制问题,主要使用动态规划法。这两条路线最初是独立发展的,直到20世纪80年代末,基于时序差分求解的第3条发展路线的出现,将试错法和动态规划法有机地结合起来。基于时序差分的求解方法充分吸收了试错法和动态规划法的优点,大大拓展了强化学习在工程技术领域的应用范围,奠定了现代强化学习在机器学习领域中的三大板块之一的重要地位。强化学习发展过程中具有影响力的算法及其提出时间见表1-1。

表1-1 强化学习发展过程中具有影响力的算法及其提出时间

试错法是以尝试和错误学习(Trial-and-Error Learning)为中心的一种仿生心理学方法。其心理学基础源自于心理学家Thorndike发表的“效应定律”(Law of Effect)。该定律描述了增强性事件对动物选择动作倾向的影响,阐述了如何累积生物体的学习数据(如奖励和惩罚之间的相互关系)。

基于试错学习法的比较有代表性的工作是20世纪60年代初Donald Michie的相关研究工作。Michie描述了如何使用一个简单的试错系统进行井字游戏;1968年,Michie又使用试错系统进行了一个增强型平衡游戏,这是关于免模型强化学习的最早工作之一,对后续学者关于免模型强化学习的研究产生了重要影响。

最优控制是20世纪50年代末提出的理论,主要用来优化控制器在动态系统中随时间变化的行为。20世纪50年代中期,Richard Bellman等扩展了Hamilton和Jacobi的理论,通过利用动态系统中的状态信息和引入一个值函数的概念来定义“最大回报函数”,而这个“最大回报函数”就是求解强化学习通用范式的贝尔曼方程。通过贝尔曼方程来间接求解最优控制问题的方法称为动态规划法(Dynamic Programming,DP)。马尔可夫决策过程的引入使最优控制问题有了一个标准的数学模型,在此基础上,Ronald Howard于1960年提出了基于马尔可夫决策过程的策略迭代方法。相较于基于贝尔曼方程的方法,策略迭代方法将迭代求解的范式引入最优控制问题求解中,为强化学习的进一步发展奠定了基础。

使用动态规划法求解最优控制问题最大的困难在于“维数灾难”,当问题的状态空间连续或状态空间巨大时,动态规划求解需要巨大的计算资源,这是在计算资源极度匮乏的年代阻碍强化学习发展的主要因素。尽管如此,用动态规划法求解最优控制问题仍然是学术研究和工程应用的首要选择,因为动态规划法相较于其他方法更加准确、高效。当然,动态规划法也是现代深度强化学习方法不可或缺的理论基础。

时序差分法提出于20世纪80年代,由于融合了试错法和动态规划法的优点,时序差分法在现代深度强化学习中起着基础性的作用。时序差分这一概念最早出现在Arthur Samuel的西洋陆战棋游戏程序中,但关于时序差分法的提出最显著的标志是Chris Watkins等于1989年发表的Q-learning算法,该算法成功地把最优控制和时间差分结合了起来。在这之后,强化学习迎来了一波发展高潮,在人工智能、机器学习、神经网络等领域都取得了快速进步。最为著名的是Gerry Tesauro使用TD-Gammon算法玩西洋双陆游戏时胜过了最好的人类玩家,这使强化学习引起了大众和媒体的广泛关注,但这之后,强化学习的研究伴随着其他机器学习领域的兴起逐渐进入了低潮期。

直到2013年,结合了强化学习和深度学习的深度强化学习的出现,才使强化学习再一次高调地进入了学界和大众的视野。强化学习本质上是一种自主学习,即智能体根据自己的经验和环境的反馈信息学习。这种学习范式是不存在监督机制的,也就是说,智能体对于学到的东西是好还是不好没有定准。深度学习的引入改变了这一局面,将智能体与环境交互的历史经验数据进行整理和筛选,可以得到一系列带有标签的训练数据,智能体通过这些训练数据来学习决策,这样智能体对学到的决策的优劣便有了判定准则,自然而然就提高了学习的效率和准确性。再加上深度神经网络的强大表征能力,使强化学习能够解决的问题的范围大大扩展了。现代深度强化学习不仅用于解决控制问题,而且还用于解决决策问题、最优化问题、博弈论问题、对策论问题等。众所周知,深度强化学习最具标志性的事件是谷歌DeepMind团队提出的围棋算法AlphaGo系列算法,能够在围棋这种状态空间极大的游戏中战胜人类大师级选手李世石和柯洁,说明了深度强化学习有巨大的发展空间。

我们有理由相信,深度学习和强化学习的结合体——深度强化学习是人工智能的未来之路。智能体必须在没有持续监督信号的情况下自主学习,而深度强化学习正是自主学习的最佳代表。相信深度强化学习的自主式学习范式能够给人工智能带来更大的发展空间。