R1之前，思维链是如何一步步演变至今的？

2026-05-21 06:555阅读0评论SEO优化

内容介绍
文章标签
相关推荐

实锤。先说一句，这玩意儿真的挺乱的——一边是学术论文，一边是咖啡店里随手记的碎片笔记，甚至还有点儿情绪化的小抱怨。

一、萌芽期：从“让模型思考”到“让模型自嗨”

最早那批论文里大模型大体上只会“一锤子买卖”。Let's think step by step这句口号像是给模型塞进了一个“先想后答”的闹钟，却没有告诉它到底该想什么、我当场石化。怎么想。于是大家开始玩儿起了Chain of Thought——把推理过程拆成若干小步骤，让模型在每一步都写点儿东西。

那时候的实现方式简直像是拼凑先用人手写好几个思考链，然后喂给模型 SFT模型学会了照搬，但根本不懂背后的逻辑。

噪声插入：脑洞大开时刻

⚡️突然想起大学宿舍里那台老旧路由器，它总是卡顿，却偏偏能跑出奇怪的DNS请求——这不就是早期 COT 的“卡顿”吗？所以有人说：思维链其实是一种“故障排除”机制，欧了！。

二、外生慢思考：搜索+打分的黄金组合

进入 2022 年左右，研究者们发现单纯喂 SFT 数据并不能提升泛化能力，于是引入了MCTS之类的搜索算法，让模型在推理阶段自己跑出多个可能路径，再用Verifier挑出最靠谱的一条。

典型代表：

StaR
PRM
Math‑Star

小丑竟是我自己。这些方案本质上把“外部搜索”和“内部生成”拼接起来——先让模型产生大量思维链，再让另一套模型给它打分。

小插曲：为什么我总爱在代码里写“TODO”而不是直接实现？🤔

我舒服了。 TODOs 就像是未完成的 COT 步骤，它们提醒你还有事没干，却也可能导致无限循环。于是有人把 TODOs → 思维链 → 完成度评分当成实验对象，后来啊发现这种“自嗨式”搜索会把算力耗尽到极限。

三、内生慢思考：RL 主导的自我进化时代

#RL + #COT = 大脑级别推理？#

DeepSeek‑V3、 Kimi‑1.5B、OpenAI‑ChatGPT‑4o 等大模型开始尝试把 RL直接嵌进思维链训练中。

# 排名	# 模型名称	#	# 思维链强化方式
1	DeepSeek-V3	67B	GRPO奖励 + 拒绝采样
2	Kimi‑1.5B	15B	基于答案正确率奖励 + 多步回滚校正
3	OpenAI‑GPT‑4o	120B+	标准答案+规则打分双重奖励
※ 表中数据为公开报告及内部测试估计，仅供参考，。

四、从外生到内生：为什么 R1 前夜大家都在喊 “RL 是终极解药”？🤷‍♀️

A) SFT 的局限性：

SFT 只能学习已有的思维链模板，对未知场景几乎无力。
SFT 往往导致过拟合——模型只会复制训练集中的套路，而不是创新。

B) RL 的魅力：

LLM 在每一次推理时都能得到即时反馈，形成闭环学习。
COT 被视作中间状态，而非到头来目标；RL 可以直接优化「答案质量」而不是「过程美观」。
Epsilon-greedy 策略让模型有时候尝试「错误」路径，从而发现更高效的新路径。

五、残缺与噪声：思维链真的全能吗？🧐

虽然 RL 看起来很炫，但实际部署中常见问题包括：，闹乌龙。

奖励函数设计太简陋：只看答案对错，会忽视过程合理性，导致「跳步」现象；比如数学题目直接给出答案，却没有展示推导步骤。
Poor Sample Diversity：COT 样本库如果过于单一， RL 会陷入局部最优，就像一直走同一条街道找不到新餐馆一样。
Lack of Generalization：Llama‑2 在代码任务上表现不错，但迁移到自然语言推理时却跌得七零八落——说明内生慢思考仍然依赖领域特化数据。

于是有些团队又回头去做"Bootstrap + Verifier": 把生成的大量 COT 筛选，用 SFT 把优秀链路重新喂回去，这种循环迭代被戏称为「自嗨循环」。不过这种方法往往带来巨大的算力消耗，就像不停刷微博一样，你停不下来但钱包受不了 😅 。

六、展望未来：R1 之后我们还能怎样继续玩转思维链？

* MULTI-MODAL 思维链： 把视觉、语音信息也纳入同一条 chain，让 LLM 能够「看图说话」再「写文章」。例子包括 Vision-LLaMA 与 AudioGPT 的跨模态实验。
* COST-AWARE 推理： DeepMind 提出的 Inference Scaling 概念提醒我们要平衡算力和效果，于是出现了「动态深度」与「层级跳跃」技术，让模型在关键步骤加深推理，在普通步骤浅尝辄止。
* PROMPT-ENGINEERING 自动化： 最优 Prompt，比如自动产生「Let's think step by step」以及后续细化指令，实现真正意义上的 Prompt 自适应。
* PERSISTENT MEMORY AGENT： 将长期记忆注入 LLM，使其能够跨会话保留过去的思考路径，从而避免每次都从零开始重走 COT。

* 本文仅作技术分享与个人随笔，不构成任何商业宣传，也不保证其中数据百分百准确。阅读时请自行斟酌，多多实验、多多吐槽！*，坦白说...

七、：从碎片到连线，我们仍在路上 🚀

观感极佳。如果你读完这篇乱七八糟却充满热血的小文，你可能已经感受到，从一开始的“一句话师凌晨三点熬夜敲代码、调参数、写日志的血泪史。下次当你看到某个大模型宣称拥有 “超长思考链”，请记得，它们可能也是在 R1 前夕那段狂热探索中，被无数噪声和错误驱动着一路前行的…

🛠️ 常见工具对比表 # 工具名 # 支持 COT 类型 # 易用度 # 推荐指数 PromptCraft Pro 基本+高级+交叉验证版 ★★★☆☆ 🔧🔧🔧🔧 OpenPrompt Lite 基础COT ★★★★☆ 👍👍👍👍 CoTBuilder X 全流程自动化 ★★☆☆☆ 💡💡💡 DIY-CotScript 自定义脚本 ★★★★★ 🚀🚀🚀🚀🚀 ※ 上表纯属个人随意填写，说到点子上了。请勿用于正式采购决策！若有雷同纯属巧合 🙈 。 / / / / / /

/ 
/ 
  /
  /
  /
/

html

标签：思维链推理搜索 RFT ReFT

实锤。先说一句，这玩意儿真的挺乱的——一边是学术论文，一边是咖啡店里随手记的碎片笔记，甚至还有点儿情绪化的小抱怨。

一、萌芽期：从“让模型思考”到“让模型自嗨”

那时候的实现方式简直像是拼凑先用人手写好几个思考链，然后喂给模型 SFT模型学会了照搬，但根本不懂背后的逻辑。

噪声插入：脑洞大开时刻

二、外生慢思考：搜索+打分的黄金组合

典型代表：

StaR
PRM
Math‑Star

小丑竟是我自己。这些方案本质上把“外部搜索”和“内部生成”拼接起来——先让模型产生大量思维链，再让另一套模型给它打分。

小插曲：为什么我总爱在代码里写“TODO”而不是直接实现？🤔

三、内生慢思考：RL 主导的自我进化时代

#RL + #COT = 大脑级别推理？#

DeepSeek‑V3、 Kimi‑1.5B、OpenAI‑ChatGPT‑4o 等大模型开始尝试把 RL直接嵌进思维链训练中。

# 排名	# 模型名称	#	# 思维链强化方式
1	DeepSeek-V3	67B	GRPO奖励 + 拒绝采样
2	Kimi‑1.5B	15B	基于答案正确率奖励 + 多步回滚校正
3	OpenAI‑GPT‑4o	120B+	标准答案+规则打分双重奖励
※ 表中数据为公开报告及内部测试估计，仅供参考，。

四、从外生到内生：为什么 R1 前夜大家都在喊 “RL 是终极解药”？🤷‍♀️

A) SFT 的局限性：

SFT 只能学习已有的思维链模板，对未知场景几乎无力。
SFT 往往导致过拟合——模型只会复制训练集中的套路，而不是创新。

B) RL 的魅力：

LLM 在每一次推理时都能得到即时反馈，形成闭环学习。
COT 被视作中间状态，而非到头来目标；RL 可以直接优化「答案质量」而不是「过程美观」。
Epsilon-greedy 策略让模型有时候尝试「错误」路径，从而发现更高效的新路径。

五、残缺与噪声：思维链真的全能吗？🧐

虽然 RL 看起来很炫，但实际部署中常见问题包括：，闹乌龙。

奖励函数设计太简陋：只看答案对错，会忽视过程合理性，导致「跳步」现象；比如数学题目直接给出答案，却没有展示推导步骤。
Poor Sample Diversity：COT 样本库如果过于单一， RL 会陷入局部最优，就像一直走同一条街道找不到新餐馆一样。
Lack of Generalization：Llama‑2 在代码任务上表现不错，但迁移到自然语言推理时却跌得七零八落——说明内生慢思考仍然依赖领域特化数据。

六、展望未来：R1 之后我们还能怎样继续玩转思维链？

* MULTI-MODAL 思维链： 把视觉、语音信息也纳入同一条 chain，让 LLM 能够「看图说话」再「写文章」。例子包括 Vision-LLaMA 与 AudioGPT 的跨模态实验。
* COST-AWARE 推理： DeepMind 提出的 Inference Scaling 概念提醒我们要平衡算力和效果，于是出现了「动态深度」与「层级跳跃」技术，让模型在关键步骤加深推理，在普通步骤浅尝辄止。
* PROMPT-ENGINEERING 自动化： 最优 Prompt，比如自动产生「Let's think step by step」以及后续细化指令，实现真正意义上的 Prompt 自适应。
* PERSISTENT MEMORY AGENT： 将长期记忆注入 LLM，使其能够跨会话保留过去的思考路径，从而避免每次都从零开始重走 COT。

* 本文仅作技术分享与个人随笔，不构成任何商业宣传，也不保证其中数据百分百准确。阅读时请自行斟酌，多多实验、多多吐槽！*，坦白说...

七、：从碎片到连线，我们仍在路上 🚀

/ 
/ 
  /
  /
  /
/

html

标签：思维链推理搜索 RFT ReFT

一、 萌芽期：从“让模型思考”到“让模型自嗨”

噪声插入：脑洞大开时刻

二、 外生慢思考：搜索+打分的黄金组合

小插曲：为什么我总爱在代码里写“TODO”而不是直接实现？🤔

三、内生慢思考：RL 主导的自我进化时代

四、从外生到内生：为什么 R1 前夜大家都在喊 “RL 是终极解药”？🤷‍♀️

五、残缺与噪声：思维链真的全能吗？🧐

六、展望未来：R1 之后我们还能怎样继续玩转思维链？

七、 ：从碎片到连线，我们仍在路上 🚀

相关推荐

一、 萌芽期：从“让模型思考”到“让模型自嗨”

噪声插入：脑洞大开时刻

二、 外生慢思考：搜索+打分的黄金组合

小插曲：为什么我总爱在代码里写“TODO”而不是直接实现？🤔

三、内生慢思考：RL 主导的自我进化时代

四、从外生到内生：为什么 R1 前夜大家都在喊 “RL 是终极解药”？🤷‍♀️

五、残缺与噪声：思维链真的全能吗？🧐

六、展望未来：R1 之后我们还能怎样继续玩转思维链？

七、 ：从碎片到连线，我们仍在路上 🚀

相关推荐

一、萌芽期：从“让模型思考”到“让模型自嗨”

二、外生慢思考：搜索+打分的黄金组合

七、：从碎片到连线，我们仍在路上 🚀

一、萌芽期：从“让模型思考”到“让模型自嗨”

二、外生慢思考：搜索+打分的黄金组合

七、：从碎片到连线，我们仍在路上 🚀