1.3.3 在线(On-policy)算法和离线(Off-policy)算法

由于深度强化学习算法需要对智能体的状态、动作和获得的奖励进行采样,因此需要采集数据。根据采集数据训练的方法不同,我们把算法分为在线算法和离线算法两种。

在线算法典型的就是基于策略梯度神经网络的算法,在训练的同时,策略因为训练会不断发生改变,需要对改变的策略进行重新采样,这样按照不断改变的策略进行采样,即为在线采样的一种。而很多价值神经网络的训练是基于离线的算法。通过固定的策略对环境进行采样后的结果,在离线算法中可以直接用来对模型进行训练,让模型能够学习到价值函数。