大模型后训练学习DPO与GRPO,哪种方法更有效?🤔

2026-04-27 21:550阅读0评论建站教程
  • 内容介绍
  • 文章标签
  • 相关推荐
DPO与GRPO专题学习

乱弹琴。 训练循环就和普通 supervised 差不多:

人工标注 / 高质量指令数据

代码语言:python

然后给一个标量分数:

对于一个 triple (同一个 prompt 的好坏回答对), 翻车了。 DPO 的 loss 类似于:

整一个... 和 PPO 很像,只是 没有 value 网络每次更新前记得拷一份旧策略:

抓到重点了。 所以工业界基本都会先对预训练模型进行SFT监督微调,让它先变成一个“懂指令的 ChatBot”**。

SFT: 让模型学会“按指令说话”

.的指令-回复数据,让模型学习:."学会按指令答题" 挽救一下。

阅读全文
DPO与GRPO专题学习

乱弹琴。 训练循环就和普通 supervised 差不多:

人工标注 / 高质量指令数据

代码语言:python

然后给一个标量分数:

对于一个 triple (同一个 prompt 的好坏回答对), 翻车了。 DPO 的 loss 类似于:

整一个... 和 PPO 很像,只是 没有 value 网络每次更新前记得拷一份旧策略:

抓到重点了。 所以工业界基本都会先对预训练模型进行SFT监督微调,让它先变成一个“懂指令的 ChatBot”**。

SFT: 让模型学会“按指令说话”

.的指令-回复数据,让模型学习:."学会按指令答题" 挽救一下。

阅读全文