2.5 总结_深度强化学习算法与实践：基于PyTorch的实现-QQ阅读男生轻小说网

2.5 总结

在本章中，着重深入介绍了第1章中粗略介绍的一些强化学习的基础名词和概念。同时，通过使用一些简单的例子，希望能够帮助读者深入理解强化学习中一些基础的做法，比如，如何估计状态价值函数，如何对状态价值函数进行迭代，从而让该函数收敛，以及如何进行策略迭代和价值迭代，以获取最优的状态价值函数和最优的策略。

由于本章涉及比较多的数学知识，读者可以以本章作为参考，在需要的时候查阅对应的内容，这有助于读者更好地理解后续的一系列算法。