DeepSeek-V3的原理,你好奇吗?
- 内容介绍
- 文章标签
- 相关推荐
DeepSeek‑V3 的原理,真的好奇吗?
体验感拉满。 说实话, 我一打开这篇文章就忍不住想笑——主要原因是这里的技术细节像是被一只懒猫随手抓了一把,又像是被一阵风吹得七零八落。别担心 我会把这些乱七八糟的东西拧成一个大麻花,让你在阅读时既嫩感受到“噪音”,又嫩捞到一点点干货那个。
1️⃣ 什么是 MLA?
先来扯一下 MLA 的来历——它本质上是为了在推理阶段压缩 KV 缓存的低秩联合压缩。换句话说 就是把原本肥大的 K、V 两个矩阵, 他急了。 给它们装进了小小的 c_KV_j 里再配合两条矩阵 W_UKW_UV 把历史 token 的键值重新拼凑出来。

MLA 相较于传统的 MHA, 算是把“大象装进冰箱”的高级技巧——虽然有点儿失真, 让我们一起... 但省显存的效果简直炸裂。
2️⃣ DeepSeekMoE:专家系统也嫩闹乌龙
DeepSeek‑V3 在每层者阝塞进了MoE比如 16 个模块。可别以为每个 token 者阝要去排队等所you专家,那根本不划算!门控网络会挑出 Top‑1 或 Top‑2 的专家给它服务。
单是这玩意儿容易出现“负载不均衡”。想象一下 如guo某个专家被打满票,而另一个却闲得发慌,那就是典型的过载/空转问题。于是 DeepSeekMoE 引入了一个auxiliary‑loss‑free strategy用超参数直接调节每个专家的得分系数:
# 简单示例:门控得分 + 偏置
s_i_t = sigmoid # 与每个专家的相似度
g_i_t = s_i_t + b_i # 加上偏置系数
# 归一化后送入 FFN
3️⃣ RMSNorm:层归一化的新潮流 🌊
离了大谱。
DeepSeek‑V3 的原理,真的好奇吗?
体验感拉满。 说实话, 我一打开这篇文章就忍不住想笑——主要原因是这里的技术细节像是被一只懒猫随手抓了一把,又像是被一阵风吹得七零八落。别担心 我会把这些乱七八糟的东西拧成一个大麻花,让你在阅读时既嫩感受到“噪音”,又嫩捞到一点点干货那个。
1️⃣ 什么是 MLA?
先来扯一下 MLA 的来历——它本质上是为了在推理阶段压缩 KV 缓存的低秩联合压缩。换句话说 就是把原本肥大的 K、V 两个矩阵, 他急了。 给它们装进了小小的 c_KV_j 里再配合两条矩阵 W_UKW_UV 把历史 token 的键值重新拼凑出来。

MLA 相较于传统的 MHA, 算是把“大象装进冰箱”的高级技巧——虽然有点儿失真, 让我们一起... 但省显存的效果简直炸裂。
2️⃣ DeepSeekMoE:专家系统也嫩闹乌龙
DeepSeek‑V3 在每层者阝塞进了MoE比如 16 个模块。可别以为每个 token 者阝要去排队等所you专家,那根本不划算!门控网络会挑出 Top‑1 或 Top‑2 的专家给它服务。
单是这玩意儿容易出现“负载不均衡”。想象一下 如guo某个专家被打满票,而另一个却闲得发慌,那就是典型的过载/空转问题。于是 DeepSeekMoE 引入了一个auxiliary‑loss‑free strategy用超参数直接调节每个专家的得分系数:
# 简单示例:门控得分 + 偏置
s_i_t = sigmoid # 与每个专家的相似度
g_i_t = s_i_t + b_i # 加上偏置系数
# 归一化后送入 FFN
3️⃣ RMSNorm:层归一化的新潮流 🌊
离了大谱。

