OmniCorpus – 百亿级多模态数据集，支持中英双语

baidu09_com 2025-08-30 10 0

OmniCorpus是一个大规模多模态数据集，包含86亿张图像和16960亿个文本标记，支持中英双语。由上海人工智能实验室联合多所知名高校及研究机构共同构建。OmniCorpus通过整合来自网站和视频平台的文本和视觉内容，提供了丰富的数据多样性。与现有数据集相比，OmniCorpus在规模和质量上都有显著提升，推动多模态大语言模型的研究和应用。数据集在GitHub上公开可用，适用于多种机器学习任务。