Docling是开源的文档解析和转换工具,能高效地将多种格式的文档(包括PDF、DOCX、PPTX、图片和HTML)解析,导出为Markdown或JSON格式。Docling支持高级PDF理解、OCR功能,能与LlamaIndex和LangChain等工具集成,增强文档的检索和问答能力。Docling提供一个简洁的命令行界面,方便用户快速处理文档。

Docling – IBM开源的文档解析工具  第1张
(图片来源网络,侵删)
Docling – IBM开源的文档解析工具  第2张
(图片来源网络,侵删)