OmniCorpus是一个大规模多模态数据集,包含86亿张图像和16960亿个文本标记,支持中英双语。由上海人工智能实验室联合多所知名高校及研究机构共同构建。OmniCorpus通过整合来自网站和视频平台的文本和视觉内容,提供了丰富的数据多样性。与现有数据集相比,OmniCorpus在规模和质量上都有显著提升,推动多模态大语言模型的研究和应用。数据集在GitHub上公开可用,适用于多种机器学习任务。

OmniCorpus – 百亿级多模态数据集,支持中英双语  第1张
(图片来源网络,侵删)
OmniCorpus – 百亿级多模态数据集,支持中英双语  第2张
(图片来源网络,侵删)