Steamer-baidu09I2V – 百度推出的图像到视频生成模型

baidu09_com 2025-08-31 8 0

Steamer-I2V 是百度 Steamer 团队推出的图像到视频生成模型，通过将静态图像转化为动态视频，展现出卓越的视觉生成能力。模型在 VBench 国际权威的视频生成评测中荣获榜首，基于精准的视觉控制、高清画质以及对中文语义的深刻理解脱颖而出。 Steamer-I2V 细粒度的视频结构化描述语言，能实现像素级的画面控制与电影级的构图效果，支持多模态输入，包括中文文本提示、参考图像等，确保生成内容与创意高度一致。采用先进的 Transformer 扩散架构，生成高达 1080P 分辨率的高清视频，通过多阶段监督训练、美学条件微调等策略，优化时间一致性与运动规律性，使视频流畅连贯。