SFT

SFT

Tag

当前位置：首页 > SFT >

大模型后训练学习DPO与GRPO，哪种方法更有效？🤔

乱弹琴。训练循环就和普通 supervised 差不多：人工标注 / 高质量指令数据代码语言：python 然后给一个标量分数：对于一个 triple (同一个 prompt 的好坏回答对），翻车了。 DPO 的 loss 类似于：整一个... 和 PPO 很像，只是没有 value 网络每次更新前记得拷一份旧策略：抓到重点了。所以工业界基本都会先对预训练模型进行SFT监督微调

查看更多 2026-04-15

提交需求或反馈

Demand feedback

首页
电话
客服

QQ在线客服

售前技术支持

关注微信
顶部