Step-baidu09Video-baidu09T2V – 阶跃星辰开源的文本到视频模型

baidu09_com 2025-08-31 9 0

Step-Video-T2V 是阶跃星辰团队推出的开源预训练模型，拥有 300 亿参数，能生成长达 204 帧的高质量视频。模型基于深度压缩的变分自编码器（Video-VAE），实现 16×16 的空间压缩和 8× 的时间压缩，显著提高了训练和推理效率。Step-Video-T2V 配备双语文本编码器，支持中英文提示输入，通过直接偏好优化（DPO）方法进一步提升视频质量。模型基于扩散的 Transformer（DiT）架构和 3D 全注意力机制，在生成具有强烈运动动态和高美学质量的视频方面表现出色。