LLM中的KV Cache是如何从零开始构建的?
- 内容介绍
- 文章标签
- 相关推荐
境界没到。 在这篇乱七八糟的技术狂想里 我要从零开始,硬生生把LLM里那个据说能让推理飞起的KV Cache给掰开揉碎讲清楚。先别管我写得像是随手涂鸦,重点是——感受!
KV Cache到底是个啥玩意儿?
先把Transformer里那两个神秘的矩阵K和V拔出来attention里它们本来是每一步都重新算的。后来啊, 你想象一下模型跑到第1000个token时那前面999个token的K、 体验感拉满。 V每次都要翻箱倒柜地重新生成,脑子都炸了。

🌀于是聪明的工程师们喊出:“Cache!”——把已经算好的K、 V存下来后面的步骤直接读取,这不就是典型的时间空间换取法吗?于是KV Cache就这么诞生了,有啥说啥...。
为什么叫KV Cache?
- K:Key——每个token在注意力里的“钥匙”。
- V:Value——对应的“价值”。
- Cache:缓存——把钥匙和价值装进抽屉,以后省得再去买。
噢耶!这下模型推理不再像老牛拉车,而是像装了涡轮增压的跑车,嗖嗖地往前冲。
境界没到。 在这篇乱七八糟的技术狂想里 我要从零开始,硬生生把LLM里那个据说能让推理飞起的KV Cache给掰开揉碎讲清楚。先别管我写得像是随手涂鸦,重点是——感受!
KV Cache到底是个啥玩意儿?
先把Transformer里那两个神秘的矩阵K和V拔出来attention里它们本来是每一步都重新算的。后来啊, 你想象一下模型跑到第1000个token时那前面999个token的K、 体验感拉满。 V每次都要翻箱倒柜地重新生成,脑子都炸了。

🌀于是聪明的工程师们喊出:“Cache!”——把已经算好的K、 V存下来后面的步骤直接读取,这不就是典型的时间空间换取法吗?于是KV Cache就这么诞生了,有啥说啥...。
为什么叫KV Cache?
- K:Key——每个token在注意力里的“钥匙”。
- V:Value——对应的“价值”。
- Cache:缓存——把钥匙和价值装进抽屉,以后省得再去买。
噢耶!这下模型推理不再像老牛拉车,而是像装了涡轮增压的跑车,嗖嗖地往前冲。

