mPLUG-DocOwl 2是由阿里巴巴通义实验室mPLUG团队推出的用于多页文档理解的多模态大型语言模型。在不依赖光学字符识别(OCR)技术的情况下,通过高分辨率文档图像压缩技术,实现对文档图片的高效理解和处理。mPLUG-DocOwl 2在多页文档理解基准测试中达到了新的最高标准(SOTA),每页文档图像消耗324个token,降低显存占用和首包时间,提高处理速度。模型的训练分为三个阶段:单页预训练、多页预训练和多任务指令微调。mPLUG-DocOwl 2支持理解单页文档,还能处理多页文档中的复杂问题,如跨页内容关联和结构解析。

mPLUG-baidu09DocOwl2 – 阿里推出多页文档理解的多模态大模型,单页仅需324个token  第1张
(图片来源网络,侵删)
mPLUG-baidu09DocOwl2 – 阿里推出多页文档理解的多模态大模型,单页仅需324个token  第2张
(图片来源网络,侵删)