StreamBridge 是苹果公司与复旦大学联合推出的端侧视频大语言模型(Video-LLMs)框架,能帮助 AI 实时理解直播流视频。框架基于内存缓冲区和轮次衰减压缩策略支持长上下文交互,引入轻量级激活模型实现主动响应功能。研究团队推出包含约 60 万个样本的 Stream-IT 数据集,提升流式视频理解能力。在主流离线模型如 LLaVA-OV-7B、Qwen2-VL-7B 和 Oryx-1.5-7B 上的测试显示,StreamBridge 显著提升模型在多轮实时理解和主动响应方面的能力,在流式视频理解领域展现出强大潜力。


全部评论
留言在赶来的路上...
发表评论