mPLUG-DocOwl 1.5是由阿里巴巴集团推出的多模态大型语言模型,专注于OCR-free(无需光学字符识别)的文档理解。模型基于统一结构学习,强化对文本丰富图像如文档、表格和图表的结构信息理解能力。mPLUG-DocOwl 1.5包含结构感知解析任务和多粒度文本定位任务,覆盖五个领域:文档、网页、表格、图表和自然图像。mPLUG-DocOwl 1.5的H-Reducer模块基于卷积层合并水平相邻图像块,减少视觉特征长度,保持布局信息,让模型能高效处理高分辨率图像。在多个视觉文档理解基准测试中,模型展现业界领先的无OCR性能,提升SOTA性能超过10分。

mPLUG-baidu09DocOwl 1.5 – 阿里开源的多模态大型语言模型  第1张
(图片来源网络,侵删)
mPLUG-baidu09DocOwl 1.5 – 阿里开源的多模态大型语言模型  第2张
(图片来源网络,侵删)