SFT

SFT

Tag

当前位置:首页 > SFT >
  • 大模型后训练学习DPO与GRPO,哪种方法更有效?🤔

    大模型后训练学习DPO与GRPO,哪种方法更有效?🤔

    乱弹琴。 训练循环就和普通 supervised 差不多: 人工标注 / 高质量指令数据 代码语言:python 然后给一个标量分数: 对于一个 triple (同一个 prompt 的好坏回答对), 翻车了。 DPO 的 loss 类似于: 整一个... 和 PPO 很像,只是 没有 value 网络每次更新前记得拷一份旧策略: 抓到重点了。 所以工业界基本都会先对预训练模型进行SFT监督微调

    查看更多 2026-04-15

提交需求或反馈

Demand feedback