FineVideo是由Hugging Face推出的一个大型多模态视频数据集,专注于视频理解领域中的复杂任务,如情绪分析、故事叙述和媒体编辑。FineVideo包含超过43,000个YouTube视频,覆盖122个类别,总时长约3,425小时。每个视频有详细的元数据标注,包括场景、角色、剧情反转和视听关联等。FineVideo的独特之处在于捕捉视频的叙事和情感旅程,为AI模型提供丰富的上下文信息,更深入地理解视频内容。

FineVideo – Hugging Face推出的大型多模态视频数据集  第1张
(图片来源网络,侵删)
FineVideo – Hugging Face推出的大型多模态视频数据集  第2张
(图片来源网络,侵删)