第2章　动态规划法

强化学习最初是在基于动物学习行为的试错学习和基于优化原理的最优控制两个领域独立发展的，后来经由马尔可夫链和贝尔曼方程将两者统一起来，从而奠定了强化学习的数学理论基础。动态规划法是著名的基于贝尔曼方程的经典强化学习方法。

动态规划的核心思想是将原问题分解为若干个子问题，并通过对子问题的求解自底向上地解决较难的原问题，这与基于马尔可夫决策过程的强化学习任务具有天然的关联性。本章首先简单介绍动态规划法的核心思想，然后着重介绍求解强化学习的动态规划法。