15.3.5 RLHF中的PPO算法——损失函数

书名：从零开始大模型开发与微调：基于PyTorch与ChatGLM
作者名：王晓华
本章字数：204字
更新时间：2024-12-31 17:38:21

后续精彩内容，请登录阅读