将OCR信息添加到PDF

我对文档进行了高质量的扫描; 这种扫描是pdf格式。

如何将ocr信息添加到pdf中,以便可以搜索? 通过搜索我的意思是目标是当用evince查看pdf时,CTRL-F实际上允许我搜索pdf内容。

pdfsandwich

你想要什么,并提供Ubuntu deb包。 它使用tesseract作为OCR引擎。 以下调用将文本图层添加到扫描的PDF中:

pdfsandwich scanned.pdf 

以下是相同但使用另一种语言(ISO 639-2代码,下载tesseract-ocr-LANGCODE包)并设置布局:

 pdfsandwich -verbose -lang spa -layout single scanned.pdf 

如果您收到任何错误,请从Sourceforge下载最新版本的deb 。

免责声明:我是pdfsandwich的开发者,因此显然有偏见。

有两个项目可以解决这个问题: GScan2PDF和OCRFeeder

我找到了一个非理想的解决方案,但却非常有效。

我通过Wine使用PDF X-Change Viewer 。 它具有OCRfunction,可以为现有的基于图像的pdf添加文本图层。

因此,您可以从此不可见图层中搜索和复制文本。

在此处输入图像描述

对于命令行解决方案,您可以使用pdfocr 。

简而言之,安装软件:

 $ sudo apt-get install python-software-properties $ sudo add-apt-repository ppa:gezakovacs/pdfocr $ sudo apt-get update $ sudo apt-get install pdfocr 

然后运行pdfocr:

 $ pdfocr -i scanned.pdf -o scanned.with.search.pdf 

这在Ubuntu 12.04 LTS上对我有用。

OCRmyPDF是一个易于实现并提供具有相同质量的输入文件和合理大小的输出pdf的解决方案:

https://github.com/jbarlow83/OCRmyPDF