1.2.1 强化学习基本模型和要素

强化学习的基本模型如图1-2所示。在时间步t,智能体感知环境的状态st,根据当前策略π选择需要执行的动作at,智能体对环境施行动作at后环境状态转移到st+1,与此同时环境给智能体一个反馈信息rt+1,智能体根据这一反馈信息适当地调整当前策略,以使下一时间步根据调整后的策略执行的动作会得到更好的环境反馈,至此当前时间步结束,系统进入下一个时间步。此循环一直进行,直到智能体学习到最优策略为止。

从以上模型可以看出,强化学习的基本组成要素如下。

(1)智能体(Agent):策略学习的主体,作为学习者或决策者存在。

(2)环境(Environment):智能体以外的一切,主要用状态进行描述。

图1-2 强化学习的基本模型

(3)状态(State)(1):表示环境特点的数据,可以是向量、矩阵、图片或其他类型的数据,环境在t时刻的状态用符号Stst(2)表示。所有可能的环境状态的全体称为状态集合或状态空间,用S表示。

(4)动作(Action):表示智能体做出决策的数据,即向环境施加动作的数据,数据形式可以是一个动作编号、One-Hot向量或一般向量,智能体在t时刻向环境施加的动作用符号Atat表示。智能体所有可能执行的动作的全体称为动作集合或动作空间,用A表示。智能体在状态st时能够执行的合法动作的集合记为Ast)。

(5)奖励(Reward):表示环境在交互过程中反馈给智能体的信息,一般用一个实数表示,即rtR。一般来讲奖励值越大表明环境对智能体施加的动作的反馈越正向。

(6)策略(Policy):智能体在某一状态下采取何种动作的一种决策机制,是智能体学习优化的对象,用π表示智能体的当前策略。