首页 / AI工具 / StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

AI工具

StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

baidu09_com 2025-08-31 11 0

StoryTeller是字节跳动、上海交通大学和北京大学共同推出的系统，能基于音频视觉角色识别技术改善长视频描述的质量和一致性。系统结合低级视觉概念和高级剧情信息，生成详细且连贯的视频描述。StoryTeller由视频分割、音频视觉角色识别和描述生成三个主要模块组成，能有效处理数分钟长的视频，在MovieQA任务中展现出比现有模型更高的准确率，比最强基线Gemini-1.5-pro高9.5%的准确率。

StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统第1张

（图片来源网络，侵删）

StoryTeller – 字节、上海交大、北大共同推出的全自动长视频描述生成一致系统第2张

（图片来源网络，侵删）

字节教育上海在哪办公上海字节教育裁员字节上海招聘上海字节实业有限公司上海字节有什么部门上海字节怎么样上海字节在哪

本文由 @baidu09_com 发布在拜读未来科技摆渡人生，如有疑问，请联系我们。
文章链接：https://baidu09.com/news/14917.html

上一篇

0w20机油和5w30哪个好？0w-20和5w-30有什么区别

下一篇

0w20机油能跑高速吗

全部评论

留言在路上...

留言在赶来的路上...

发表评论取消回复

登录关灯投稿生成海报返回顶部