第2章 马尔可夫决策过程

马尔可夫决策过程是基于马尔可夫过程理论的随机动态系统的最优决策过程。马尔可夫决策过程是序贯决策的主要研究领域,属于运筹学中数学规划的一个分支。该模型起源于随机优化控制,20世纪50年代R.贝尔曼研究动态规划时已出现马尔可夫决策过程的基本思想。进一步地,R.A.霍华德和D.布莱克韦尔等的研究工作奠定了马尔可夫决策过程的理论基础。1965年,布莱克韦尔关于一般状态空间的研究和E.B.丁金关于非时齐(非时间平稳性)的研究,推动了这一理论的发展。1960年以来,马尔可夫决策过程理论得到迅速发展,应用领域不断扩大。

强化学习的大多数算法都是以马尔可夫决策过程为基础发展起来的。在智能体进行强化学习时,经常采用马尔可夫模型对状态转移概率不确定,拥有状态空间和动作空间的决策问题建立相应的数学模型,通过求解这个数学模型解决强化学习问题。因此,马尔可夫决策过程模型在强化学习领域占有非常重要的地位。在正式学习众多强化学习方法之前,需要先熟悉马尔可夫决策过程模型。

本章首先介绍三个基本概念:马尔可夫性、马尔可夫过程和马尔可夫决策过程。然后介绍马尔可夫决策模型的基本元素:策略、值函数、模型。接着引入贝尔曼方程,给出值函数、状态行为函数、最优值函数、最优状态行为函数的推导公式,并且通过生动的实例对以上概念,以及公式推导进行证明和解释。