Step系列大模型，两款多模态大模型，究竟有何独特之处？

2026-04-27 21:5964阅读0评论建站教程

内容介绍
文章标签
相关推荐

有啥说啥... 哎呀，最近这AI圈真是热闹得不行！各种大模型层出不穷，看得我眼花缭乱的。今天咱们就来聊聊阶跃星辰的两款宝贝——Step-Video-T2V 和 Step-Audio 2。说实话，刚开始听到这些名字的时候，我差点儿没念对… 感觉就像绕口令一样！不过呢，它们可不是光名字唬人的，内在实力绝对值得好好扒一扒。

Step-Video-T2V：这视频生成能力，简直了！

先说Step-Video-T2V吧。这个家伙可是个视频生成利器！它采用高压缩 Video-VAE、双语文本编码器、3D 全注意力扩散 Transformer 和基于人类反馈的视频优化组合策略，太刺激了。实现端到端的视频生成。听起来是不是特别高大上？简单来说就是你给它一段文字描述，它就能给你变出一段对应的视频。而且据说效果还特别逼真！

论文中将视频生成模型划分为两类：

2月18日,上海阶跃星辰智能科技有限公司和浙江吉利控股集团联合宣布,将双方合作的阶跃两款Step系…，一句话。

Level-1？Level-2？这等级制度是干嘛的？

听说Step-Video-T2V现在还处于Level-1阶段。这什么意思呢？简单理解就是它在可控性、物理一致性和长时序建模方面已经有所突破了但是离真正的“完美”还差一点点。未来希望它能进化到Level-2，想想就激动人心啊！毕竟谁不想拥有一个能完全按照自己想法生成视频的AI小助手呢？

DPO训练：让人工来把关？！

挖野菜。说到这里不得不提一下它的DPO训练方法了。这DPO可不是什么人名啊，而是“直接偏好优化”的意思。简单来说就是用Step-Video-T2V生成很多视频片段出来然后让人工来挑选出最棒的那几个。只有通过人工审核的才能留下来继续训练模型！你说这要求得多严格啊？！难怪效果这么好。

DPO 训练包括三个核心环节：数据收集、偏好优化和训练优化。

阅读全文

标签：DeepSeekR1 StepVideoT2V StepAudio 多模态大模型

Step-Video-T2V：这视频生成能力，简直了！

论文中将视频生成模型划分为两类：

2月18日,上海阶跃星辰智能科技有限公司和浙江吉利控股集团联合宣布,将双方合作的阶跃两款Step系…，一句话。

Level-1？Level-2？这等级制度是干嘛的？

DPO训练：让人工来把关？！

DPO 训练包括三个核心环节：数据收集、偏好优化和训练优化。

阅读全文

标签：DeepSeekR1 StepVideoT2V StepAudio 多模态大模型

Step-Video-T2V：这视频生成能力，简直了！

Level-1？Level-2？这等级制度是干嘛的？

DPO训练：让人工来把关？！

相关推荐

Step-Video-T2V：这视频生成能力，简直了！

Level-1？Level-2？这等级制度是干嘛的？

DPO训练：让人工来把关？！

相关推荐