Products
GG网络技术分享 2026-04-16 08:50 1
有啥说啥... 哎呀,最近这AI圈真是热闹得不行!各种大模型层出不穷,看得我眼花缭乱的。今天咱们就来聊聊阶跃星辰的两款宝贝——Step-Video-T2V 和 Step-Audio 2。说实话,刚开始听到这些名字的时候,我差点儿没念对… 感觉就像绕口令一样!不过呢,它们可不是光名字唬人的,内在实力绝对值得好好扒一扒。
先说Step-Video-T2V吧。这个家伙可是个视频生成利器!它采用高压缩 Video-VAE、 双语文本编码器、3D 全注意力扩散 Transformer 和基于人类反馈的视频优化组合策略, 太刺激了。 实现端到端的视频生成。听起来是不是特别高大上?简单来说就是你给它一段文字描述,它就能给你变出一段对应的视频。而且据说效果还特别逼真!

论文中将视频生成模型划分为两类:
2月18日,上海阶跃星辰智能科技有限公司和浙江吉利控股集团联合宣布,将双方合作的阶跃两款Step系…,一句话。
听说Step-Video-T2V现在还处于Level-1阶段。这什么意思呢?简单理解就是它在可控性、物理一致性和长时序建模方面已经有所突破了但是离真正的“完美”还差一点点。未来希望它能进化到Level-2,想想就激动人心啊!毕竟谁不想拥有一个能完全按照自己想法生成视频的AI小助手呢?
挖野菜。 说到这里不得不提一下它的DPO训练方法了。这DPO可不是什么人名啊,而是“直接偏好优化”的意思。简单来说就是用Step-Video-T2V生成很多视频片段出来然后让人工来挑选出最棒的那几个。只有通过人工审核的才能留下来继续训练模型!你说这要求得多严格啊?!难怪效果这么好。
DPO 训练包括三个核心环节:数据收集、偏好优化和训练优化。在数据收集阶段, 使用 Step-Video-T2V 生成多种文本提示对应的视频,并由人工标注,筛选出清晰、流畅、无伪影且符合文本描述的优选样本,一边标记质量较低的视频作为反例,就这?。
靠谱。 说完视频了当然不能忘记音频啦!Step-Audio 2是一款多模态语音大模型。这款面向工业级应用的,凭借其在音频理解、 语音交互、工具调用等核心能力上的突破性进展,迅速引发了科技圈和产业界的广泛关注.图中展示的arXiv论文标识表明Step-Audio 2的核心技术已通过学术论文形式公开,开发者可通过该渠道获取详细的技术原理与实验数据.
| 模型名称 | 参数量 | 主要功能 | 应用场景 |
|---|---|---|---|
| Step Audio 2 | 130B | 音频理解、语音交互、工具调用 | 智能客服、语音助手、内容创作 |
| DeepSeek R1 | 67B | 文本生成、逻辑推理、长上下文建模 | 写作辅助、代码生成、知识问答 |
数据质量的高低和好坏,往往是一个模型成功的重要因素。如果像传统的方式那样,直接利用真人语音数据进行训练,难度较大。也很难筛选出高质量的数据出来。
吃瓜。 所以阶跃团队采用了生成式语音数据引擎。不用依赖大量的人工标注数据就可以生成高质量的语音!这简直是天才般的想法啊!等于说可以自己造数据啊!
| 合作方 | 贡献领域 |
|---|---|
| 上海阶跃星辰智能科技有限公司 | 算法研发及技术创新 |
| 浙江吉利控股集团 | 算力支持及场景应用 |
| 产品名称 | 特点/优势 | 适用人群/场景 |
|---|---|---|
| Step Video T2V | 开源且强大的视频生成能力; 可控性较好;物理一致性较高;长时序建模能力较强. | 内容创作者; 数字营销人员; 研究人员; AI爱好者等. 适用于短片制作;广告素材制作; 科研项目等. |
| Step Audio 2 多模态语音大模型 | 工业级应用解决方案; 音频理解与交互能力强大;支持多种语言与情绪表达. 工具调用性能突出. 可以自行定制训练以满足特定需求 . |
Demand feedback