- 深度强化学习理论与实践
- 龙强 章胜编著
- 476字
- 2024-12-27 22:25:03
1.1.3 强化学习与机器学习的关系
强化学习是和监督学习、非监督学习并列的机器学习三大板块之一。三大板块的内容不同,但也并非完全独立,三大板块之间的关系如图1-1所示。
强化学习和监督学习的区别在于强化学习不需要事先准备好训练数据,更没有输出作为监督来指导学习过程。强化学习有环境反馈的即时奖励和由即时奖励构成的回报,但即时奖励和回报与监督学习的输出不一样,它们并不是事先给出的,而是延后给出的。同时,强化学习的每步与时间顺序前后关系密切,而监督学习的训练数据一般是相互独立的,即相互之间没有依赖关系。随着强化学习的发展,监督学习逐渐被引入强化学习的训练过程中,将强化学习和深度学习相结合的深度强化学习就是这一路线的典型结果,所以现代深度强化学习已经和监督学习密不可分了。
图1-1 强化学习、监督学习和非监督学习的关系
强化学习与非监督学习的区别在于非监督学习只有输入数据,没有输出值也没有奖励,同时非监督学习的数据之间也是相互独立的,相互之间没有依赖关系。强化学习和非监督学习的适用范围也不一样,非监督学习一般应用于聚类、降维等问题中,而强化学习一般应用于控制和决策问题中。