将OCR信息添加到PDF
我对文档进行了高质量的扫描; 这种扫描是pdf格式。
如何将ocr信息添加到pdf中,以便可以搜索? 通过搜索我的意思是目标是当用evince查看pdf时,CTRL-F实际上允许我搜索pdf内容。
pdfsandwich
你想要什么,并提供Ubuntu deb包。 它使用tesseract作为OCR引擎。 以下调用将文本图层添加到扫描的PDF中:
pdfsandwich scanned.pdf
以下是相同但使用另一种语言(ISO 639-2代码,下载tesseract-ocr-LANGCODE
包)并设置布局:
pdfsandwich -verbose -lang spa -layout single scanned.pdf
如果您收到任何错误,请从Sourceforge下载最新版本的deb 。
免责声明:我是pdfsandwich的开发者,因此显然有偏见。
有两个项目可以解决这个问题: GScan2PDF和OCRFeeder
我找到了一个非理想的解决方案,但却非常有效。
我通过Wine使用PDF X-Change Viewer 。 它具有OCRfunction,可以为现有的基于图像的pdf添加文本图层。
因此,您可以从此不可见图层中搜索和复制文本。
对于命令行解决方案,您可以使用pdfocr 。
简而言之,安装软件:
$ sudo apt-get install python-software-properties $ sudo add-apt-repository ppa:gezakovacs/pdfocr $ sudo apt-get update $ sudo apt-get install pdfocr
然后运行pdfocr:
$ pdfocr -i scanned.pdf -o scanned.with.search.pdf
这在Ubuntu 12.04 LTS上对我有用。
OCRmyPDF是一个易于实现并提供具有相同质量的输入文件和合理大小的输出pdf的解决方案: