OCRmyPDF 是开源的命令行工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档。通过添加 OCR 文本层,将无法直接编辑的扫描 PDF 文件能被搜索和编辑。工具支持超过 100 种语言,基于 Tesseract OCR 引擎实现高效的文字识别。 OCRmyPDF 能优化图像质量,识别前对图像进行纠偏和清洁,提升识别准确率。支持多核处理,充分利用系统资源,快速处理大量文件。OCRmyPDF 支持批量处理,结合 GNU 并行工具,可以处理多个 PDF 文件。

OCRmyPDF – 专为 PDF 文件转换为可搜索、可复制的文档AI工具  第1张
(图片来源网络,侵删)
OCRmyPDF – 专为 PDF 文件转换为可搜索、可复制的文档AI工具  第2张
(图片来源网络,侵删)