pdf-craft 是用在将 PDF 文件转换为其他格式(如 Markdown、EPUB)的工具,专注于处理扫描书籍的 PDF 文件。pdf-craft 支持提取正文内容,过滤掉页眉、页脚、脚注等非正文元素。基于结合 DocLayout-YOLO 算法和 PaddleOCR 文本识别技术,pdf-craft 能有效处理跨页问题,生成语义通顺的文本。

(图片来源网络,侵删)

(图片来源网络,侵删)
pdf-craft 是用在将 PDF 文件转换为其他格式(如 Markdown、EPUB)的工具,专注于处理扫描书籍的 PDF 文件。pdf-craft 支持提取正文内容,过滤掉页眉、页脚、脚注等非正文元素。基于结合 DocLayout-YOLO 算法和 PaddleOCR 文本识别技术,pdf-craft 能有效处理跨页问题,生成语义通顺的文本。
全部评论
留言在赶来的路上...
发表评论