如何打造AI智能体：大模型语境下Token优化技巧？

2026-05-23 21:424阅读0评论工具资源

境界没到。 Token就像是你手里握着的金币。每一次输入、每一次输出都要扣掉几枚金币，而你却没有足够的算盘去算清楚。于是我想：为什么不把这枚硬币变成一只小狗，让它跑来跑去告诉我剩余多少？

Token优化——一场荒唐又必要的斗争

先说一句， Token优化听起来像是专业术语，但对我它更像是“省钱”与“省力”的双重冲击。你想要让大模型给你写文章，等着瞧。写代码，写诗歌，但如果你不懂 Token 的吃法，你会被一个个高昂的调用狠狠地踩在脚下。

Token 就是一块碎片化的饼干。模型把文字切成一块块，然后逐个吃掉。它们是字、词、甚至子词，取决于你用的是哪个分词器。

坦白说... 假设你有一段长达两千字的论文，你要把它塞进模型里。标准 GPT-4 的窗口只有八千 token，那就只能拿半边来吃，还得挑最重要的那部分，否则会被打包进“”外面被拒之门外。

先别急着把所有内容塞进去，先把它们做成 “摘要” 或 “关键信息”。这就是所谓的“精简”。如果你能用五句话概括整篇文章，那就能大幅减少消耗。

欧了！很多人写提示时一堆冗余词汇堆叠在一起：“请你仔细阅读以下内容，并给出详细分析，要求必须非常严谨。” 这其实等价于给模型塞了一根长木棍，它只能把木棍的一端挂到自己的注意力上，然后挣扎着往另一端延伸。

改进方法：先删掉多余形容词，再加上点结构化指令。比方说：

prompt = """分析以下代码：
def foo:
    return x + 1
请列出两点改进建议。
"""

这样就能节省大约70% 的 Token。

Token 就是一块碎片化的饼干。模型把文字切成一块块，然后逐个吃掉。它们是字、词、甚至子词，取决于你用的是哪个分词器。

改进方法：先删掉多余形容词，再加上点结构化指令。比方说：

prompt = """分析以下代码：
def foo:
    return x + 1
请列出两点改进建议。
"""

这样就能节省大约70% 的 Token。