2 月 17 日,阶跃星辰联合吉利汽车集团宣布开源两款多模态大模型:全球参数量最大的开源视频生成模型 Step-Video-T2V,以及首款产品级开源语音交互大模型 Step-Audio。这是阶跃星辰首次开源其多模态模型,同时也为全球 AI 开源社区带来了重要贡献。
Step-Video-T2V
和 DeepSeek-R1 一样,Step-Video-T2V 也选用了最为开放的 MIT 协议,允许任意编辑和商业应用。作为一款拥有 300 亿参数的大规模视频生成模型,模型使用了专门设计的 Video-VAE(变分自编码器)来处理视频数据。这个 VAE 实现了前所未有的高压缩比:在空间维度实现 16×16 倍压缩,时间维度实现 8 倍压缩,大幅提升了训练和生成效率。相比目前主流开源模型如混元的 8×8 空间压缩和 4 倍时间压缩,Step-Video-T2V 在保持出色重建质量的同时,将视频生成的最大帧数提升至 204 帧。
在模型核心架构上,Step-Video-T2V 基于 DiT(Diffusion Transformer)框架,包含 48 层结构,每层配备 48 个注意力头,每个头的维度为 128。为了提升训练稳定性和生成质量,团队在多个关键环节进行了优化:使用 AdaLN-Single 来引入时间步信息,在自注意力机制中引入 QK-Norm 来确保训练稳定性,并采用 3D RoPE 技术来更好地处理不同长度和分辨率的视频序列。
图丨 Step-Video-T2V 的架构(来源:arXiv)
特别值得一提的是,团队在训练的最后阶段创新性地引入了 Video-DPO(视频偏好优化)技术。这是一种针对视频生成的强化学习优化算法,通过整合人类反馈来微调模型,使生成的视频更符合人类审美和质量预期。实验数据显示,经过 DPO 优化的模型在人类偏好评估中获得了 55% 的支持率,明显优于基线模型的 45%。
为了评估模型性能,阶跃还发布了 Step-Video-T2V-Eval 基准数据集。这个数据集包含 128 条来自真实用户的中文评测问题,覆盖了运动、风景、动物、组合概念、超现实等 11 个内容类别。评测采用了两套人工评估指标:一是直接对比不同模型生成的视频质量,二是从指令遵循、运动平滑性、物理合理性、美感度四个维度进行打分。在与开源模型的对比中,Step-Video-T2V 在各个维度上都有所超越;在与商业模型的对比中,在运动建模和生成能力方面也已经达到了不错的水平,但在某些视觉效果(如分辨率)上还有差距。
(来源:arXiv)
具体效果,让我们来看看笔者本人和众多用户的实测。
总体来看,模型生成的视频效果不错,特别是指令跟随和镜头语言的运用上表现突出,能够比较精确地执行各类摄影机运动指令,如推拉摇移、旋转和跟随等,这些复杂的镜头运动在生成结果中都表现得十分流畅自然。文字生成能力也可圈可点。不过在部分的物理逻辑理解和生成效果上,还有进步空间。
Step-Audio
另一款产品 Step-Audio 则是业内首个产品级的开源语音交互模型。从阶跃官方评测的结果来看,在其自建的多维度评估体系 StepEval-Audio-360 基准测试中,Step-Audio 在逻辑推理、创作能力、指令控制、语言能力、角色扮演等多个维度均表现突出。
从技术架构来看,Step-Audio 采用了创新的双编码本框架来处理音频流。该框架将语义和声学特征分别编码:语义编码器使用 1024 项的码本,采样率为 16.7Hz;声学编码器则采用 4096 项的码本,采样率为 25Hz。为了实现这两种不同采样率的信息整合,模型采用了 2:3 的时序交错比例,即每两个语义标记对应三个声学标记,确保了信息的精确对齐。
图丨 Step-Audio 模型架构(来源:GitHub)
在语言模型方面,Step-Audio 基于参数量达 130B 的 Step-1 基础模型进行了持续预训练。通过音频相关的上下文学习,模型强化了对语音信息的处理能力,实现了更准确的语音-文本对齐。在语音解码器设计上,团队结合了流匹配(flow matching)和神经声码器(neural vocoding)的优势,优化了实时波形生成的效果。
为了支持实时交互,Step-Audio 还实现了一套优化的推理流水线。其核心是控制器模块,负责管理状态转换、协调推测性响应生成,并确保各个子系统的无缝配合。这些子系统包括语音活动检测、流式音频分词器、语言模型、语音解码器等。特别值得一提的是,模型实现了 40% 的提交率和 14:1 的压缩比,大大提升了跨模态对齐的效率。
Step-Audio 支持中英日等多语言对话,还能根据指令生成不同的情感语气(如喜悦、悲伤)、方言(如粤语、四川话)以及独特的声音风格(如说唱)。在标准测试集上,Step-Audio 的表现同样出色。它在 HSK-6(汉语水平考试六级)评测中的得分达到 86 分,在同类开源模型中表现突出。
图丨测评结果(来源:GitHub)
开源的浪潮越掀越高
在 DeepSeek 引起全球 AI 界的震动之后,开源的浪潮似乎还在继续。行业巨头们的态度已经开始转变。
不久前,OpenAI 的 CEO Sam Altman 就公开承认,在开源权重 AI 模型这个问题上,他们可能“站在了历史错误的一边”,并开始征集广大用户关于开源方案的意见。百度也一转此前的态度,官宣之后将转向开源。而阶跃此次开源两个模型,无疑又在多模态领域增强了开源力量。Hugging Face 中国区负责人王铁震就评价称阶跃将成为下一个“DeepSeek”,Hugging Face 官方也转发了这条推文表示赞同。
图丨相关推文(来源:X)
开源社区一砖一瓦的贡献,正在让全球 AI 格局发生微妙的改变,或许正如 Meta 首席 AI 科学家 Yann LeCun 所说:“人们看到 DeepSeek 的表现就认为'中国在 AI 领域超越了美国',这种解读并不准确。正确的解读是:开源模型正在超越专有模型。”随着开源力量的不断壮大,我们将迎来更多的机遇和可能性。
参考资料:
1.https://github.com/stepfun-ai/Step-Video-T2V
2.https://github.com/stepfun-ai/Step-Audio
运营/排版:何晨龙