Oryx是由清华大学、腾讯和南洋理工大学联合推出的多模态大型语言模型(MLLM),基于两项核心创新来处理视觉数据,预训练的OryxViT模型和动态压缩模块。OryxViT将任意分辨率的图像编码为适合LLM的视觉表示,动态压缩模块根据需求在1到16倍之间压缩视觉标记。使Oryx能灵活地处理不同分辨率和时长的视觉输入,无论是高清图像还是超长视频。Oryx在多个视觉-语言基准测试中展现卓越的性能,特别是在空间和时间理解方面。


Oryx是由清华大学、腾讯和南洋理工大学联合推出的多模态大型语言模型(MLLM),基于两项核心创新来处理视觉数据,预训练的OryxViT模型和动态压缩模块。OryxViT将任意分辨率的图像编码为适合LLM的视觉表示,动态压缩模块根据需求在1到16倍之间压缩视觉标记。使Oryx能灵活地处理不同分辨率和时长的视觉输入,无论是高清图像还是超长视频。Oryx在多个视觉-语言基准测试中展现卓越的性能,特别是在空间和时间理解方面。
全部评论
留言在赶来的路上...
发表评论