1.4 小结
提起AlphaGo、AlphaGo Zero和AlphaZero,大家应该都不陌生,因为其在人机大战中的胜利,使得强化学习开始受到大家的广泛关注。强化学习是机器学习的一种,它通过与环境不断地交互,借助环境的反馈来调整自己的行为,使得累积回报最大。强化学习要解决的就是决策类问题,即求取当前状态下最优行为或行为概率。
强化学习包括智能体和环境两大对象,智能体是算法本身,环境是与智能体交互的外部。智能体通过行为a作用于环境,环境反馈给智能体改变前后的状态s和s',以及回报r。根据状态转移概率和回报是否已知,强化学习方法可分为无模型方法和有模型方法。同时,根据在解决强化学习问题时,是对策略函数还是值函数进行逼近,强化学习方法可分为基于值函数的方法、基于策略函数的方法及行动者-评论家方法。