3.5 值迭代_强化学习-QQ阅读男生玄幻网

书名：强化学习
作者名：邹伟鬲玲刘昱杓
本章字数：363字
更新时间：2021-04-01 03:43:36

3.5　值迭代

策略迭代算法在每次进行策略评估时，采用贝尔曼期望方程更新值函数。而值迭代算法借助的是贝尔曼最优方程，直接使用行为回报的最大值更新原来的值，如图3-4所示。

图3-4　求取V_k₊₁（s）

值迭代算法将策略改进视为值函数的改善，每一步都求取最大的值函数，即

V₁→V₂→V₃→…→V*

假设在状态s下，我们有一个初始值函数V₁（s），基于当前状态，我们有多个可选行为a。每个行为a会引发一个立即回报，一个或多个状态转移，如从状态s转换至状态s'。不同状态s'对应有不同的值函数V₁（s'）整个的V₁（s）称为a的行为回报。值迭代算法直接使用所有行为引发的行为回报中取值最大的那个值来更新原来的值，得到V₂（s）。如此迭代计算，直至值函数收敛，整个过程没有遵循任何策略。

虽然算法中没有给出明确的策略，但是根据公式

可以看出策略改进是隐含在值迭代过程中执行的。

算法流程如下。

本周热推：

菜鸟起飞系统安装与重装计算机导论：实训篇（第2版）Office 2010轻松入门 TensorFlow 2.0卷积神经网络实战基于Proteus的PIC单片机C语言程序设计与仿真