WebLI-100B是Google DeepMind推出的包含1000亿图像-文本对的超大规模数据集,用在预训练视觉语言模型(VLMs)。WebLI-100B是WebLI数据集的扩展版本,基于从网络中收集大量图像及其对应的标题或页面标题作为文本配对信息构建而成。WebLI-100B的规模是之前最大视觉语言数据集的十倍,用海量数据提升模型对长尾概念、文化多样性和多语言内容的理解能力。研究者在构建时仅进行基本的数据过滤,保留尽可能多的语言和文化多样性。WebLI-100B的出现为训练更具包容性的多模态模型提供了重要的基础资源。

WebLI-baidu09100B  – 谷歌 DeepMind 推出的1000亿视觉语言数据集 第1张
(图片来源网络,侵删)
WebLI-baidu09100B  – 谷歌 DeepMind 推出的1000亿视觉语言数据集 第2张
(图片来源网络,侵删)