R1之前，思维链是如何一步步演变至今的？

2026-05-21 06:553阅读0评论SEO优化

实锤。先说一句，这玩意儿真的挺乱的——一边是学术论文，一边是咖啡店里随手记的碎片笔记，甚至还有点儿情绪化的小抱怨。

一、萌芽期：从“让模型思考”到“让模型自嗨”

最早那批论文里大模型大体上只会“一锤子买卖”。Let's think step by step这句口号像是给模型塞进了一个“先想后答”的闹钟，却没有告诉它到底该想什么、我当场石化。怎么想。于是大家开始玩儿起了Chain of Thought——把推理过程拆成若干小步骤，让模型在每一步都写点儿东西。

那时候的实现方式简直像是拼凑先用人手写好几个思考链，然后喂给模型 SFT模型学会了照搬，但根本不懂背后的逻辑。

⚡️突然想起大学宿舍里那台老旧路由器，它总是卡顿，却偏偏能跑出奇怪的DNS请求——这不就是早期 COT 的“卡顿”吗？所以有人说：思维链其实是一种“故障排除”机制，欧了！。

进入 2022 年左右，研究者们发现单纯喂 SFT 数据并不能提升泛化能力，于是引入了MCTS之类的搜索算法，让模型在推理阶段自己跑出多个可能路径，再用Verifier挑出最靠谱的一条。

典型代表：

小丑竟是我自己。这些方案本质上把“外部搜索”和“内部生成”拼接起来——先让模型产生大量思维链，再让另一套模型给它打分。

实锤。先说一句，这玩意儿真的挺乱的——一边是学术论文，一边是咖啡店里随手记的碎片笔记，甚至还有点儿情绪化的小抱怨。

那时候的实现方式简直像是拼凑先用人手写好几个思考链，然后喂给模型 SFT模型学会了照搬，但根本不懂背后的逻辑。

典型代表：

小丑竟是我自己。这些方案本质上把“外部搜索”和“内部生成”拼接起来——先让模型产生大量思维链，再让另一套模型给它打分。