1.2.2 强化学习的执行过程

根据强化学习的基本模型和组成要素,强化学习的执行过程可以归纳如下。

步骤1:智能体感知当前环境状态。

步骤2:智能体根据当前策略选择将要执行的动作。

步骤3:智能体选择的动作被施加到环境中,迫使环境状态发生转移。

步骤4:环境状态发生转移,同时,环境向智能体发出一个反馈信号。

步骤5:智能体根据接收的环境反馈信号适当地优化自己的策略。

步骤6:转步骤1,开始下一次交互,直到环境达到终止状态。

从步骤1到步骤5的过程叫作智能体和环境发生一次交互,或一个时间步。智能体和环境的交互会一直进行,直到环境达到终止状态为止(若存在终止状态)。这时,智能体和环境完成了一个包括多次交互的完整过程,称为一局(Episode)。