StreamBridge 是苹果公司与复旦大学联合推出的端侧视频大语言模型(Video-LLMs)框架,能帮助 AI 实时理解直播流视频。框架基于内存缓冲区和轮次衰减压缩策略支持长上下文交互,引入轻量级激活模型实现主动响应功能。研究团队推出包含约 60 万个样本的 Stream-IT 数据集,提升流式视频理解能力。在主流离线模型如 LLaVA-OV-7B、Qwen2-VL-7B 和 Oryx-1.5-7B 上的测试显示,StreamBridge 显著提升模型在多轮实时理解和主动响应方面的能力,在流式视频理解领域展现出强大潜力。

StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架  第1张
(图片来源网络,侵删)
StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架  第2张
(图片来源网络,侵删)