大模型后训练学习DPO与GRPO,哪种方法更有效?🤔
- 内容介绍
- 文章标签
- 相关推荐

乱弹琴。 训练循环就和普通 supervised 差不多:
人工标注 / 高质量指令数据
代码语言:python
然后给一个标量分数:
对于一个 triple (同一个 prompt 的好坏回答对), 翻车了。 DPO 的 loss 类似于:
整一个... 和 PPO 很像,只是 没有 value 网络每次更新前记得拷一份旧策略:
抓到重点了。 所以工业界基本都会先对预训练模型进行SFT监督微调,让它先变成一个“懂指令的 ChatBot”**。
SFT: 让模型学会“按指令说话”
.的指令-回复数据,让模型学习:."学会按指令答题" 挽救一下。

乱弹琴。 训练循环就和普通 supervised 差不多:
人工标注 / 高质量指令数据
代码语言:python
然后给一个标量分数:
对于一个 triple (同一个 prompt 的好坏回答对), 翻车了。 DPO 的 loss 类似于:
整一个... 和 PPO 很像,只是 没有 value 网络每次更新前记得拷一份旧策略:
抓到重点了。 所以工业界基本都会先对预训练模型进行SFT监督微调,让它先变成一个“懂指令的 ChatBot”**。
SFT: 让模型学会“按指令说话”
.的指令-回复数据,让模型学习:."学会按指令答题" 挽救一下。

