VideoVAE+(VideoVAE Plus)是香港科技大学团队推出的先进的跨模态视频变分自编码器(Video VAE),通过引入新的时空分离压缩机制和文本指导,实现了对大幅运动视频的高效压缩与精准重建,同时保持了良好的时间一致性和运动恢复。VideoVAE+在视频重建质量上全面超越了最新模型,包括英伟达的Cosmos Tokenizer等。模型支持高保真重建,跨模态重建,在视频重建任务中树立了新的基准。

VideoVAE+ – 香港科技大学推出的先进跨模态视频变分自编码器  第1张
(图片来源网络,侵删)
VideoVAE+ – 香港科技大学推出的先进跨模态视频变分自编码器  第2张
(图片来源网络,侵删)