- 深度强化学习理论与实践
- 龙强 章胜编著
- 115字
- 2024-12-27 22:25:08
2.2 值函数和贝尔曼方程
1.2节详细介绍了强化学习的数学模型——马尔可夫决策过程,并在此基础上定义了有限马尔可夫链,本节的讨论从马尔可夫链开始。假设一个强化学习任务一局的交互之后得到的马尔可夫链为
以下首先基于马尔可夫链定义3个重要的概念。
1.2节详细介绍了强化学习的数学模型——马尔可夫决策过程,并在此基础上定义了有限马尔可夫链,本节的讨论从马尔可夫链开始。假设一个强化学习任务一局的交互之后得到的马尔可夫链为
以下首先基于马尔可夫链定义3个重要的概念。