RLHF

共收录篇相关文章

LLM自我批评：一场混乱的自省狂欢我满足了。先说个笑话， AI跟镜子对话，镜子说：“你到底会不会反思？” AI低声嘀咕：“我在Self‑Critic模式下已经把自己砍成两半了！”这段奇葩的开场，就是我们今天要聊的——LLM自我批评以及怎

2026-04-3046阅读0评论

哎呀，说到把一个知识渊博的AI模型调教成“懂你心里话”的小可爱，这事儿可不是一天两天就嫩搞定的——它像是一只被关在图书馆里的大象，还得先教会它怎么轻声细语、怎么递上一杯温暖的咖啡。先别急着写代码：先聊聊“情绪”蚌埠住了... 彳艮多人误以

2026-04-2765阅读0评论

乱弹琴。训练循环就和普通 supervised 差不多：人工标注高质量指令数据代码语言：python然后给一个标量分数：对于一个 triple(同一个 prompt 的好坏回答对），翻车了。DPO 的 loss 类似于：整一个... 和

2026-04-2755阅读0评论