大模型后训练学习DPO与GRPO，哪种方法更有效？🤔

2026-04-27 21:550阅读0评论建站教程

内容介绍
文章标签
相关推荐

DPO与GRPO专题学习

乱弹琴。训练循环就和普通 supervised 差不多：

人工标注 / 高质量指令数据

代码语言：python

然后给一个标量分数：

对于一个 triple (同一个 prompt 的好坏回答对），翻车了。 DPO 的 loss 类似于：

整一个... 和 PPO 很像，只是没有 value 网络每次更新前记得拷一份旧策略：

抓到重点了。所以工业界基本都会先对预训练模型进行SFT监督微调，让它先变成一个“懂指令的 ChatBot”**。

SFT: 让模型学会“按指令说话”

.的指令-回复数据,让模型学习:."学会按指令答题" 挽救一下。

标签：SFT RLHF DPO GRPO

DPO与GRPO专题学习

乱弹琴。训练循环就和普通 supervised 差不多：

人工标注 / 高质量指令数据

代码语言：python

然后给一个标量分数：

对于一个 triple (同一个 prompt 的好坏回答对），翻车了。 DPO 的 loss 类似于：

整一个... 和 PPO 很像，只是没有 value 网络每次更新前记得拷一份旧策略：

抓到重点了。所以工业界基本都会先对预训练模型进行SFT监督微调，让它先变成一个“懂指令的 ChatBot”**。

SFT: 让模型学会“按指令说话”

.的指令-回复数据,让模型学习:."学会按指令答题" 挽救一下。

标签：SFT RLHF DPO GRPO