- 深度强化学习理论与实践
- 龙强 章胜编著
- 305字
- 2024-12-27 22:25:04
1.2.2 强化学习的执行过程
根据强化学习的基本模型和组成要素,强化学习的执行过程可以归纳如下。
步骤1:智能体感知当前环境状态。
步骤2:智能体根据当前策略选择将要执行的动作。
步骤3:智能体选择的动作被施加到环境中,迫使环境状态发生转移。
步骤4:环境状态发生转移,同时,环境向智能体发出一个反馈信号。
步骤5:智能体根据接收的环境反馈信号适当地优化自己的策略。
步骤6:转步骤1,开始下一次交互,直到环境达到终止状态。
从步骤1到步骤5的过程叫作智能体和环境发生一次交互,或一个时间步。智能体和环境的交互会一直进行,直到环境达到终止状态为止(若存在终止状态)。这时,智能体和环境完成了一个包括多次交互的完整过程,称为一局(Episode)。