SFT

共收录篇相关文章

乱弹琴。训练循环就和普通 supervised 差不多：人工标注高质量指令数据代码语言：python然后给一个标量分数：对于一个 triple(同一个 prompt 的好坏回答对），翻车了。DPO 的 loss 类似于：整一个... 和

2026-04-271阅读0评论