Step-Video-T2V 是阶跃星辰团队推出的开源预训练模型,拥有 300 亿参数,能生成长达 204 帧的高质量视频。模型基于深度压缩的变分自编码器(Video-VAE),实现 16×16 的空间压缩和 8× 的时间压缩,显著提高了训练和推理效率。Step-Video-T2V 配备双语文本编码器,支持中英文提示输入,通过直接偏好优化(DPO)方法进一步提升视频质量。模型基于扩散的 Transformer(DiT)架构和 3D 全注意力机制,在生成具有强烈运动动态和高美学质量的视频方面表现出色。


全部评论
留言在赶来的路上...
发表评论