2.4 小结

本章首先介绍了三个基本概念:马尔可夫性、马尔可夫过程和马尔可夫决策过程。接着引入贝尔曼方程,给出了值函数、状态行为函数、最优值函数、最优状态行为函数的推导公式及它们相互之间的关系。最后通过求职实例对以上概念及公式推导进行了验证和解释。