VidTok(Video Tokenizer)是微软开源的先进的视频分词器,通过高效的算法将视频内容转换成一系列“视频词”。支持连续和离散分词化,具有灵活的压缩率和多样化的隐空间,适用于不同的应用场景。VidTok采用混合模型架构设计,结合了卷积层和上/下采样模块,以减少计算复杂度同时保持高质量重建。引入了有限标量量化技术,解决了传统向量量化中的训练不稳定性和码本崩溃问题。

VidTok – 微软开源的视频分词器,支持连续和离散分词化  第1张
(图片来源网络,侵删)
VidTok – 微软开源的视频分词器,支持连续和离散分词化  第2张
(图片来源网络,侵删)