R1之前,思维链是如何一步步演变至今的?

2026-05-21 06:553阅读0评论SEO优化
  • 内容介绍
  • 文章标签
  • 相关推荐

实锤。 先说一句, 这玩意儿真的挺乱的——一边是学术论文,一边是咖啡店里随手记的碎片笔记,甚至还有点儿情绪化的小抱怨。

一、 萌芽期:从“让模型思考”到“让模型自嗨”

最早那批论文里大模型大体上只会“一锤子买卖”。Let's think step by step这句口号像是给模型塞进了一个“先想后答”的闹钟, 却没有告诉它到底该想什么、 我当场石化。 怎么想。于是大家开始玩儿起了Chain of Thought——把推理过程拆成若干小步骤,让模型在每一步都写点儿东西。

​解密prompt系列49. 回顾R1之前的思维链发展

那时候的实现方式简直像是拼凑先用人手写好几个思考链, 然后喂给模型 SFT模型学会了照搬,但根本不懂背后的逻辑。

噪声插入:脑洞大开时刻

⚡️突然想起大学宿舍里那台老旧路由器, 它总是卡顿,却偏偏能跑出奇怪的DNS请求——这不就是早期 COT 的“卡顿”吗? 所以有人说:思维链其实是一种“故障排除”机制,欧了!。

二、 外生慢思考:搜索+打分的黄金组合

进入 2022 年左右,研究者们发现单纯喂 SFT 数据并不能提升泛化能力,于是引入了MCTS之类的搜索算法,让模型在推理阶段自己跑出多个可能路径,再用Verifier挑出最靠谱的一条。

典型代表:

  • S​ta​R
  • P​R​M
  • M​a​t​h‑S​t​a​r

小丑竟是我自己。 这些方案本质上把“外部搜索”和“内部生成”拼接起来——先让模型产生大量思维链,再让另一套模型给它打分。

阅读全文

实锤。 先说一句, 这玩意儿真的挺乱的——一边是学术论文,一边是咖啡店里随手记的碎片笔记,甚至还有点儿情绪化的小抱怨。

一、 萌芽期:从“让模型思考”到“让模型自嗨”

最早那批论文里大模型大体上只会“一锤子买卖”。Let's think step by step这句口号像是给模型塞进了一个“先想后答”的闹钟, 却没有告诉它到底该想什么、 我当场石化。 怎么想。于是大家开始玩儿起了Chain of Thought——把推理过程拆成若干小步骤,让模型在每一步都写点儿东西。

​解密prompt系列49. 回顾R1之前的思维链发展

那时候的实现方式简直像是拼凑先用人手写好几个思考链, 然后喂给模型 SFT模型学会了照搬,但根本不懂背后的逻辑。

噪声插入:脑洞大开时刻

⚡️突然想起大学宿舍里那台老旧路由器, 它总是卡顿,却偏偏能跑出奇怪的DNS请求——这不就是早期 COT 的“卡顿”吗? 所以有人说:思维链其实是一种“故障排除”机制,欧了!。

二、 外生慢思考:搜索+打分的黄金组合

进入 2022 年左右,研究者们发现单纯喂 SFT 数据并不能提升泛化能力,于是引入了MCTS之类的搜索算法,让模型在推理阶段自己跑出多个可能路径,再用Verifier挑出最靠谱的一条。

典型代表:

  • S​ta​R
  • P​R​M
  • M​a​t​h‑S​t​a​r

小丑竟是我自己。 这些方案本质上把“外部搜索”和“内部生成”拼接起来——先让模型产生大量思维链,再让另一套模型给它打分。

阅读全文