1.2.2 强化学习的执行过程_深度强化学习理论与实践-QQ阅读男生玄幻网

根据强化学习的基本模型和组成要素，强化学习的执行过程可以归纳如下。

步骤1：智能体感知当前环境状态。

步骤2：智能体根据当前策略选择将要执行的动作。

步骤3：智能体选择的动作被施加到环境中，迫使环境状态发生转移。

步骤4：环境状态发生转移，同时，环境向智能体发出一个反馈信号。

步骤5：智能体根据接收的环境反馈信号适当地优化自己的策略。

步骤6：转步骤1，开始下一次交互，直到环境达到终止状态。

从步骤1到步骤5的过程叫作智能体和环境发生一次交互，或一个时间步。智能体和环境的交互会一直进行，直到环境达到终止状态为止（若存在终止状态）。这时，智能体和环境完成了一个包括多次交互的完整过程，称为一局（Episode）。

本周热推：