Video-LLaVA2是由北京大学ChatLaw课题组推出的开源多模态智能理解系统,通过创新的时空卷积(STC)连接器和音频分支,提升了视频和音频理解能力。模型在视频问答和字幕生成等多个基准测试中表现出色,与一些专有模型相媲美,同时在音频和音视频问答任务中也展示了优越的多模态理解能力。


Video-LLaVA2是由北京大学ChatLaw课题组推出的开源多模态智能理解系统,通过创新的时空卷积(STC)连接器和音频分支,提升了视频和音频理解能力。模型在视频问答和字幕生成等多个基准测试中表现出色,与一些专有模型相媲美,同时在音频和音视频问答任务中也展示了优越的多模态理解能力。
全部评论
留言在赶来的路上...
发表评论