mPLUG-baidu09DocOwl 1.5 – 阿里开源的多模态大型语言模型

baidu09_com 2025-08-31 13 0

mPLUG-DocOwl 1.5是由阿里巴巴集团推出的多模态大型语言模型，专注于OCR-free（无需光学字符识别）的文档理解。模型基于统一结构学习，强化对文本丰富图像如文档、表格和图表的结构信息理解能力。mPLUG-DocOwl 1.5包含结构感知解析任务和多粒度文本定位任务，覆盖五个领域：文档、网页、表格、图表和自然图像。mPLUG-DocOwl 1.5的H-Reducer模块基于卷积层合并水平相邻图像块，减少视觉特征长度，保持布局信息，让模型能高效处理高分辨率图像。在多个视觉文档理解基准测试中，模型展现业界领先的无OCR性能，提升SOTA性能超过10分。