将OCR信息添加到PDF

我对文档进行了高质量的扫描; 这种扫描是pdf格式。

如何将ocr信息添加到pdf中，以便可以搜索？通过搜索我的意思是目标是当用evince查看pdf时，CTRL-F实际上允许我搜索pdf内容。

pdfsandwich

你想要什么，并提供Ubuntu deb包。它使用tesseract作为OCR引擎。以下调用将文本图层添加到扫描的PDF中：

pdfsandwich scanned.pdf

以下是相同但使用另一种语言（ISO 639-2代码，下载tesseract-ocr-LANGCODE包）并设置布局：

 pdfsandwich -verbose -lang spa -layout single scanned.pdf

如果您收到任何错误，请从Sourceforge下载最新版本的deb 。

免责声明：我是pdfsandwich的开发者，因此显然有偏见。

有两个项目可以解决这个问题： GScan2PDF和OCRFeeder

我找到了一个非理想的解决方案，但却非常有效。

我通过Wine使用PDF X-Change Viewer 。它具有OCRfunction，可以为现有的基于图像的pdf添加文本图层。

因此，您可以从此不可见图层中搜索和复制文本。

在此处输入图像描述

对于命令行解决方案，您可以使用pdfocr 。

简而言之，安装软件：

 $ sudo apt-get install python-software-properties $ sudo add-apt-repository ppa:gezakovacs/pdfocr $ sudo apt-get update $ sudo apt-get install pdfocr

然后运行pdfocr：

 $ pdfocr -i scanned.pdf -o scanned.with.search.pdf

这在Ubuntu 12.04 LTS上对我有用。

OCRmyPDF是一个易于实现并提供具有相同质量的输入文件和合理大小的输出pdf的解决方案：

https://github.com/jbarlow83/OCRmyPDF

将OCR信息添加到PDF

pdfsandwich

什么是最好，最简单的OCR解决方案？

如何从图像中提取文本？

如何在gscan2pdf中将OCR文本添加到原始pdf？

如何编辑扫描的.jpeg中的文本？

如何将PDF格式转换为文本可搜索的PDF格式？

如何在部分屏幕捕获上使用OCR来获取文本？

如何使用OCR工具即时从屏幕区域提取文本？