1.5 强化学习的优缺点_深度强化学习算法与实践：基于PyTorch的实现-QQ阅读男生玄幻网

书名：深度强化学习算法与实践：基于PyTorch的实现
作者名：张校捷编著
本章字数：616字
更新时间：2024-10-30 04:45:01

1.5 强化学习的优缺点

前文中介绍了强化学习和深度强化学习的一些基本概念。作为一种人工智能算法，强化学习无疑是一条很有希望通向通用人工智能的道路。可以看到，训练强化学习的过程中不需要任何训练数据，只需要有一定的强化学习环境，能够让智能体对环境进行探索，智能体就能通过算法找到一系列最优的策略，或者到达一系列最优的价值点，来尽可能获取最大的奖励。这个和通用人工智能所需要解决的问题很类似，如果能找到一个通用的智能体来完成正常人类的学习过程，那么强化学习算法必然能够称为通用人工智能算法。虽然看起来很有希望，但是强化学习算法在成为通用人工智能算法的路上仍然困难重重。

首先就是环境的问题。前面我们已经看到，强化学习需要有一定的环境，那么如何构建一个合理的环境就是一个首要的任务。这里所说的构建环境包含一个合理的能够跟智能体互动的环境，以及构造合理的奖励值。其中，第一点保证了智能体能够合理地在这个环境中探索，而不会在环境中某一个地方因为某种原因被停止（比如环境有个障碍智能体撞上后无法脱离。第二点所说的合理的奖励值则保证智能体能够做出正常的行为（比如奖励值太小导致智能体倾向于保持原来的状态）。这些都是需要考虑的重要因素。

其次就是深度强化学习和深度学习相比，往往需要更大的数据量和训练次数才能收敛。这一点对于深度强化学习的应用造成了不利的影响，特别是策略梯度算法，往往需要在环境中使用策略生成很多数据，在这种情况下往往会导致算法的采样效率低下。