mPLUG-baidu09DocOwl2 – 阿里推出多页文档理解的多模态大模型，单页仅需324个token

baidu09_com 2025-08-31 9 0

mPLUG-DocOwl 2是由阿里巴巴通义实验室mPLUG团队推出的用于多页文档理解的多模态大型语言模型。在不依赖光学字符识别（OCR）技术的情况下，通过高分辨率文档图像压缩技术，实现对文档图片的高效理解和处理。mPLUG-DocOwl 2在多页文档理解基准测试中达到了新的最高标准（SOTA），每页文档图像消耗324个token，降低显存占用和首包时间，提高处理速度。模型的训练分为三个阶段：单页预训练、多页预训练和多任务指令微调。mPLUG-DocOwl 2支持理解单页文档，还能处理多页文档中的复杂问题，如跨页内容关联和结构解析。