Tag
乱弹琴。 训练循环就和普通 supervised 差不多: 人工标注 / 高质量指令数据 代码语言:python 然后给一个标量分数: 对于一个 triple (同一个 prompt 的好坏回答对), 翻车了。 DPO 的 loss 类似于: 整一个... 和 PPO 很像,只是 没有 value 网络每次更新前记得拷一份旧策略: 抓到重点了。 所以工业界基本都会先对预训练模型进行SFT监督微调
查看更多 2026-04-15
Demand feedback