CogVideoX-baidu092 – 智谱 AI 推出的文本到视频生成模型

baidu09_com 2025-08-28 6 0

CogVideoX-2是智谱 AI 推出的文本到模型，基于先进的 3D 变分自编码器（VAE），将视频数据压缩到原本的 2%，减少资源使用，同时确保视频帧之间的连贯流畅。通过独特的 3D 旋转位置编码技术，视频在时间轴上能够自然流动，赋予画面生命力。模型结构、训练方法、数据工程全面更新，图生视频基础模型能力大幅度提升38%。生成更可控，支持画面主体进行大幅度运动，同时保持画面稳定性。指令遵从能力行业领先，能够理解和实现各种复杂prompt。能驾驭各种艺术风格，画面美感大幅提升支持 FP16、BF16、FP32、FP8 和 INT8 等多种推理精度。