你了解组注意力机制(GQA)和RMSNorm在现代大模型架构中的应用吗?
- 内容介绍
- 文章标签
- 相关推荐
一、 先说说组注意力到底是个啥玩意儿
先别急着翻白眼,组注意力真的不是科幻小说里那种光剑,它是把原本的多头注意力给拆散了把 KV 那俩兄弟“拼”成几组每组再喂给好几个 Q 头吃。听起来像是把鸡蛋和面粉混在一起Zuo蛋糕,却不小心变成了披萨——味道还是一样,只是材料用量不一样,总结一下。。
简单说:

- Q 仍然彳艮多, 保持模型的表达嫩力;
- K/V 只要几组,大幅降低 KV Cache 占显存的体积;
- 每组 KV 会复制
到对应的 Q 头上,算子里会出现
_interleave这种奇怪的操作。
一、 先说说组注意力到底是个啥玩意儿
先别急着翻白眼,组注意力真的不是科幻小说里那种光剑,它是把原本的多头注意力给拆散了把 KV 那俩兄弟“拼”成几组每组再喂给好几个 Q 头吃。听起来像是把鸡蛋和面粉混在一起Zuo蛋糕,却不小心变成了披萨——味道还是一样,只是材料用量不一样,总结一下。。
简单说:

- Q 仍然彳艮多, 保持模型的表达嫩力;
- K/V 只要几组,大幅降低 KV Cache 占显存的体积;
- 每组 KV 会复制
到对应的 Q 头上,算子里会出现
_interleave这种奇怪的操作。

