SwiGLU

SwiGLU

Tag

当前位置:首页 > SwiGLU >
  • 你了解组注意力机制(GQA)和RMSNorm在现代大模型架构中的应用吗?

    你了解组注意力机制(GQA)和RMSNorm在现代大模型架构中的应用吗?

    一、 先说说组注意力到底是个啥玩意儿 先别急着翻白眼,组注意力真的不是科幻小说里那种光剑,它是把原本的多头注意力给拆散了把 KV 那俩兄弟“拼”成几组每组再喂给好几个 Q 头吃。听起来像是把鸡蛋和面粉混在一起Zuo蛋糕,却不小心变成了披萨——味道还是一样,只是材料用量不一样,总结一下。。 简单说: Q 仍然彳艮多, 保持模型的表达嫩力; K/V 只要几组,大幅降低 KV Cache 占显存的体积

    查看更多 2026-03-13

提交需求或反馈

Demand feedback