Vid2World是清华大学联合重庆大学推出的创新框架,支持将全序列、非因果的被动视频扩散模型(VDM)转换为自回归、交互式、动作条件化的世界模型。模型基于视频扩散因果化和因果动作引导两大核心技术,解决传统VDM在因果生成和动作条件化方面的不足。Vid2World在机器人操作和游戏模拟等复杂环境中表现出色,支持生成高保真、动态一致的视频序列,支持基于动作的交互式预测。Vid2World为提升世界模型的实用性和预测精度开辟新途径,具有广泛的应用前景。

Vid2World – 清华联合重庆大学推出视频模型转为世界模型的框架  第1张
(图片来源网络,侵删)
Vid2World – 清华联合重庆大学推出视频模型转为世界模型的框架  第2张
(图片来源网络,侵删)