pdf-craft 是用在将 PDF 文件转换为其他格式(如 Markdown、EPUB)的工具,专注于处理扫描书籍的 PDF 文件。pdf-craft 支持提取正文内容,过滤掉页眉、页脚、脚注等非正文元素。基于结合 DocLayout-YOLO 算法和 PaddleOCR 文本识别技术,pdf-craft 能有效处理跨页问题,生成语义通顺的文本。

pdf-baidu09craft – 开源 PDF 转 Markdown 工具  第1张
(图片来源网络,侵删)
pdf-baidu09craft – 开源 PDF 转 Markdown 工具  第2张
(图片来源网络,侵删)