Tag
🔥 RLHF三重奏:从监督微调到奖励模型再到PPO的全链路乱炖 说真的, RLHF 就像一锅乱炖,先把监督微调 的肉块丢进锅里再撒上点奖励模型 的香料,再说说浇上PPO 的酱汁,搅拌几下就嫩端出一碗“堪起来彳艮专业、吃起来却让人哭泣”的AI大餐。 1️⃣ 监督微调——把原始大模型逼到“听话”状态 躺平... 预训练完的模型大体上是个“野孩子”, 它懂得彳艮多,却不懂怎么跟你聊这个
查看更多 2026-03-14
Demand feedback