当前位置：首页 > 网站优化 >

DeepSeek V3如何将训练大模型的成本大幅降低？

GG网络技术分享 2026-04-16 12:47 0

天哪，你们听说了吗？这简直太疯狂了真的，我整个人都惊呆了！就在2024年12月26日那个中国的DeepSeek公司，他们搞出了一个叫DeepSeek V3的大模型，直接把整个AI圈给炸翻了！我那天晚上本来都准备睡了后来啊刷到这个新闻，瞬间就清醒了咖啡都省了。这玩意儿到底有多牛呢？它居然把训练大模型的成本给狂降了90%！90%啊朋友们，这是什么概念？这就好比你去买法拉利，后来啊只花了买自行车的钱，这谁顶得住啊？

而且最气人的是他们发布即开源，直接甩出来50多页的论文，把所有的训练细节都摊开给你看，一点藏着掖着的意思都没有。这操作简直太“流氓”了让其他那些还在搞闭源、搞神秘的公司怎么活？我看着那堆论文，心里五味杂陈，既兴奋又有点嫉妒，恨不得自己也能搞出这么个东西来。简直了。简单 DeepSeek V3是个拥有671B参数的MoE模型，虽然参数总数大得吓人，但每个token只需要激活37B参数。这就像是你有一个671个人的超级团队，但每次干活只需要叫醒其中37个精英，剩下的都在睡觉，这能不省电吗？

这到底是个什么神仙架构？MoE大法好！

咱们得好好聊聊这个MoE架构，这玩意儿真的是太神奇了。以前我们训练模型，那真的是“人海战术”，不管什么任务，所有的参数都得一起上，累得半死，效率还低。但是DeepSeek V3不一样，它玩了个花活儿。它引入了路由专家和共享专家。这听起来是不是有点像公司里的组织架构，操作一波...？

在这个架构里共享专家始终参与所有输入的处理。无论输入是什么所有共享专家都会贡献它们的力量。这就像是公司的行政部门，不管你在做哪个项目，行政都得在那儿撑着。而路由专家中主要是用来选择参数进行激活。对于每个输入的token，只有一部分路由专家会被选中来参与计算。这个选择过程是由一个门控机制决定的，比如DeepSeekMoE中用的那种根据亲和力分数来选的Top-K方式。这简直就是精准打击啊，绝不浪费一颗子弹，求锤得锤。！

我就在想，这模型是不是也懂“摸鱼”的哲学？不需要干的活儿绝对不干。而且它利用了大概14.8T的高质量token进行了大规模预训练。14.8T啊，这得是多大的数据量，估计把互联网都翻了个底朝天。这种高效的训练方法，真的给那些没有资源的公司打了一针强心剂，证明了大规模的GPU集群根本不是训练大模型的必要条件。这就像是在告诉大家：“看，没钱也能玩转AI！”

FP8训练：这不仅是省钱，这是在抢钱！

说到省钱，就不得不提这个FP8了。这绝对是DeepSeek V3的杀手锏之一。这里训练这么省钱当然主要是主要原因是该模型原生就是FP8，还有在模型架构上做了一些优化导致模型训练成本很低。原生就是FP8混合精度训练框架，并首次验证其在超大规模模型上的有效性。

以前大家都在用FP16或者BF16，觉得这就够低了没想到DeepSeek直接干到了FP8。这就像是你以前看高清电影，现在直接看压缩包，虽然体积小了但画质居然没怎么变！这技术力简直让人怀疑人生。原生就是FP8混合精度训练框架，并首次验证其在超大规模模型上的有效性。这不仅仅是技术上的突破，这是在帮老板们省电费啊，这是可以说的吗？！

而且， DeepSeek V3的训练总共才用了不到280万个GPU小时而Llama 3 405B却用了3080万GPU小时。这对比太惨烈了Llama 3看了想流泪。用训练一个模型所花费的钱训练一个DeepSeek V3只需要花费557.6万美元比一比的话，嗐... 一个简单的7B Llama 3模型则需要花费76万美元。这性价比，高得离谱！

模型名称	参数量	训练成本估算	GPU小时数	主要技术特点
DeepSeek V3	671B	~557.6万	~280万	FP8原生训练, MoE架构, MLA
Llama 3 405B	405B	未公开	3080万	标准Dense架构, 高质量数据
Llama 3 7B	7B	~76万	未公开	小参数量, 高效微调
GPT-4o	未公开	~5000万 - 1亿	极高	闭源, 多模态, 极高性能

看看这个表格，是不是觉得很刺激？DeepSeek V3用不到600万美元的成本，干出了别人几千万甚至上亿美元才能干出来的事儿。这简直就是AI界的“拼多多”，砍一刀，价格直接到底。比起动辄几百亿人民币都训练不出来一个好用的大模型，DeepSeek V3的训练简直颠覆了大家的想象，引起舒适。。

性能强得离谱，价格却低到尘埃

你以为它便宜就没好货？那你就大错特错了。DeepSeek V3在性能上简直就是个“六边形战士”。从发布的效果来看，这个开源模型在多个数据集上的效果都能够赶上最前沿的几个大模型。比如在英语任务上，在多项英语基准上，DeepSeek V3 展现了强劲的性能：在 MMLU-Redux和 DROP的表现优于其他模型，就连GPT-4o分数都比它要低，在复杂推理任务中展现了领先优势。F-Eval上达到 86.1，仅仅只略低于 Claude-3.5，尊嘟假嘟？。

在数学任务上，DeepSeek V3 在数学推理任务中表现出色。这让我想起了以前被数学题支配的恐惧，这模型居然比我算得还快还准。在编程领域上， DeepSeek V3 在编程任务中表现中规中矩，虽然不是顶尖，但也绝对够用了毕竟它便宜啊！你让它写个脚本，几秒钟就搞定，还要什么自行车？

最最最关键的是它的API价格被打下来了！每一百万的输入tokens，只需要0.27$；每百万的输出tokens需要1.1$。这价格，便宜到我都怀疑这个公司还能不能赚到钱。我们这里对比一下目前国外几个前沿大模型的价格， GPT-4每百万输入tokens，高达30$，而Claude3 Opus每百万输出tokens也要15$。从价格上来看， DeepSeek V3真的是太便宜的，便宜到我都想给DeepSeek打钱求他们别倒闭了，歇了吧...。

模型	输入价格	输出价格	性价比指数
DeepSeek V3	$0.27	$1.10	⭐⭐⭐⭐⭐
GPT-4o	$30.00	$60.00	⭐⭐
Claude 3.5 Sonnet	$3.00	$15.00	⭐⭐⭐
Claude 3 Opus	$15.00	$15.00	⭐⭐

看看这价格对比，简直是降维打击。如果你是个开发者，看到这个价格估计都要笑醒了。以前跑个模型得精打细算，现在直接随便跑，跑废了也不心疼。而且如果要平衡性能和成本，它就成了DeepSeek官方绘图中唯一进入“最佳性价比”三角区的模型。其他像GPT-4o、Claude3.5等模型，价格都比较昂贵，根本没法玩，抓到重点了。。

那些黑科技：MLA和MTP

DeepSeek V3除了使用了FP8之外还有一些其他的模型细节。比如它继续采用了多头潜在注意力来实现高效推理。它在传统多头的基础上，引入了潜在特征概念，进一步提高了对复杂关系的建模能力。

这听起来很高大上，其实简单就是先把token的特征压缩成一个小维度的latent vector，然后再通过一些简单的变换把它到各个头需要的Key和Value空间。对于一些重要的信息，比如旋转位置编码RoPE，会进行单独处理，这样网络仍然可以保留时间和位置的信息。这就像是你把行李压缩打包，到了目的地再展开，省空间又不丢东西，稳了！。

你看啊... 还用到了一个MTP技术 MTP的核心理念在于训练时模型不仅要预测下一个token，还要一边预测序列后面的几个token。这样一来模型就能获得更丰富的训练信息，有助于它更深入地理解上下文以及长距离的依赖关系。这就像是下棋，高手总是能往后看好几步，而菜鸟只能看一步。DeepSeek V3明摆着是个高手。

中文任务？那是基本盘！

中文任务这个应该是最有优势的了基本都可以秒杀国外的一些前沿大模型。毕竟是国产模型，对中文的理解那是刻在骨子里的。什么成语、歇后语、地道。梗，它都能给你整得明明白白。我试了一下让它写个藏头诗，那叫一个顺口，比我都强。这让我这个中文系毕业的人情何以堪啊！

DeepSeek-V3现在已经可以在官方平台上直接测试了代码也是完全开源的，可以随时下载。国外的AI爱好者们都已经开始尝试了有人甚至把4个或8个M4 Mac mini叠在一起运行DeepSeek V3。被割韭菜了。这画面太美，我都不敢想。还有开发者用DeepSeek-V3创建了一个AI公司logo风格的小行星游戏，只要几分钟很快就搞定了。这创造力，简直爆棚。

可谓是一个低调的实力派选手搅动了AI大模型的风云，尽管训练成本较低，但 DeepSeek-V3 已经成为市场上最强的开源模型之一。用了deepseek-r1 7b小模型，我后悔了。用3个亿成本玩了一个月Deep Seek，我们决定放弃deep seek本地部署了。算是吧... DeepSeek微调内卷：Kiln+Unsloth+LLaMAFactory+PEFT+Transformers，谁才是真正大模型调教之王 - Kiln 微调。这些乱七八糟的讨论充斥着技术圈，大家都在疯狂地尝试各种可能性。

这不仅仅是技术，这是态度

总的DeepSeek V3的发布，只用了较低的成本就可以超越现有的一些大模型，并且能够和GPT-4o和Claude 3.5相媲美，确实是一个杰出的工作。其高效的训练方法和较低的计算成本，可以给其他没有资源的公司借鉴一下也验证了大规模的GPU集群不是训练大模型的必要条件，那必须的！。

更重要的是它以仅557.6万美元的GPU成本，就训练出了与OpenAI o1能力相当的DeepSeek R1模型。557.6万美元的成本，其实吧是DeepSeek通用大模型V... 这句话虽然没说完，冲鸭！但意思大家都懂。DeepSeek V3延续了便宜又快的训练思路，在又快又好的一边，DeepSeek V3的API价格也被打下来了。

说到底。一夜之间， DeepSeek突然之间炸场，各个大佬都DeepSeek就像一股清流，或者说是泥石流，冲垮了旧有的秩序。我看着屏幕上的代码，心里默默想：这才是AI该有的样子啊！不管怎么说DeepSeek V3这次是真的赢麻了不管是技术上还是口碑上。未来会怎样？谁知道呢，但至少现在DeepSeek V3是当之无愧的王者！

标签： 模型效果训练成本 FP8混合精度

上一篇： LLM结构化输出代码示例和原理分析，你能详细讲解一下吗？
下一篇：如何快速掌握PyJnius库，搭建Python与JAVA的沟通桥梁？

网站优化

DeepSeek V3如何将训练大模型的成本大幅降低？

这到底是个什么神仙架构？MoE大法好！

FP8训练：这不仅是省钱，这是在抢钱！

性能强得离谱，价格却低到尘埃

那些黑科技：MLA和MTP

中文任务？那是基本盘！

这不仅仅是技术，这是态度

为您推荐

提交需求或反馈

产品中心

H5单页免费源码

免费源码

联系我们

QQ在线客服

关注微信

网站优化

DeepSeek V3如何将训练大模型的成本大幅降低？

这到底是个什么神仙架构？MoE大法好！

FP8训练：这不仅是省钱，这是在抢钱！

性能强得离谱，价格却低到尘埃

那些黑科技：MLA和MTP

中文任务？那是基本盘！

这不仅仅是技术， 这是态度

为您推荐

提交需求或反馈

产品中心

H5单页免费源码

免费源码

联系我们

QQ在线客服

关注微信

这不仅仅是技术，这是态度