Video-LLaVA2是由北京大学ChatLaw课题组推出的开源多模态智能理解系统,通过创新的时空卷积(STC)连接器和音频分支,提升了视频和音频理解能力。模型在视频问答和字幕生成等多个基准测试中表现出色,与一些专有模型相媲美,同时在音频和音视频问答任务中也展示了优越的多模态理解能力。

Video-baidu09LLaVA2 – ChatLaw推出的开源多模态智能理解系统  第1张
(图片来源网络,侵删)
Video-baidu09LLaVA2 – ChatLaw推出的开源多模态智能理解系统  第2张
(图片来源网络,侵删)