什么是最好,最简单的OCR解决方案?
我想扫描一下我躺在身边的大量文件,尽量减少麻烦。 我想使用简单扫描将它们转换为图像,然后使用OCR将它们转换为文本。 是否有一个带有GUI的优秀OCR应用程序,只需按一下按钮就可以获得良好的效果?
-
GOCR 来自 OCR(光学字符识别)程序。 它将文本的扫描图像转换回文本文件。
-
CLARA是另一个很好的图形选项。
-
OCRAD 来自 OCR,可以用作独立的控制台应用程序,也可以用作其他程序的后端。
-
KOOKA 来自 KDE应用程序,但工作正常,此外你必须安装实际的OCR程序,如GOCR和OCRAD。安装Kooka和OCR程序后,你必须将Kooka指向OCR安装位置,以便它能够将JPEG转换为文本。
-
OCRFeeder 来自文档布局分析和光学字符识别系统。
-
Tesseract 来自命令行实用程序,它使用起来非常简单。您可以从这里安装语言包tesseract-ocr-eng 。
看看这个页面 。
注意:
要运行tesseract goto终端并键入以下内容
tesseract imagefile.tif outputfile.txt
Tesseract只能读取TIFF文件 – 如果你有JPEG或PDF或其他什么,你将不得不转换它。 此外,文件扩展名必须是.tif,而不是.tiff,否则会出现tesseract错误。
Linux的智能-OCR-溶液
免责声明 – 我与此开源解决方案的开发密切相关
Lios可以使用扫描仪或相机将打印转换为文本。
它还可以从其他来源(例如包含图像的Pdf,图像或文件夹)生成扫描图像。
该计划为视障人士提供完全无障碍服务。
由于我紧密相连 – 我很乐意反馈。
- Sourceforge的网站
- 源代码
- 论坛
您可以使用几种流行的OCR命令行工具(我不确定他们是否有GUI):
-
Tesseract ( ReadMe , FAQ )(Python)
也可用于: Tesseract .NET , Tesseract iOS
一种OCR引擎,于1985年至1995年间在惠普实验室开发,现在又在Google上开发。 Tesseract可能是最准确的开源OCR引擎。
用法:
tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile]
-
GOCR
开源字符识别。 它将扫描的文本图像转换回文本文件。 GOCR可以与不同的前端一起使用,这使得很容易移植到不同的操作系统和架构。 它可以打开许多不同的图像格式,其质量每天都在提高。
-
OCRopus ™( FAQ )(用Python,NumPy和SciPy编写)
OCR系统专注于使用大规模机器学习来解决文档分析中的问题,具有可插拔布局分析,可插入字符识别,统计自然语言建模和多语言function。
OCRopus引擎基于两个研究项目:90年代中期开发并由美国人口普查局部署的高性能手写识别器,以及新颖的高性能布局分析方法。
OCRopus的开发由Google赞助,最初用于高吞吐量,大批量文档转换工作。 我们希望它也是许多其他应用的优秀OCR系统。
-
Tessnet2 (开源,OCR,Tesseract,.NET,DOTNET,C#,VB.NET,C ++ / CLI)
Tesseract是一个C ++开源OCR引擎。 Tessnet2是.NET程序集,它公开了非常简单的OCR方法。 Tessnet2属于Apache 2许可证(如tesseract),这意味着您可以按照自己的意愿使用它,包含在商业产品中。
其他几个: 用于Linux的ABBYY CLI OCR , Asprise OCR
有关更完整的列表,请查看:Wikipedia上的光学字符识别软件列表
另请参阅: wanghaisheng/awesome-ocr
– GitHub上有前途的OCR资源的wanghaisheng/awesome-ocr
列表 。
Gscan2PDF
OCR在多页PDF或扫描文档上
这可能是最简单的方法。 Gscan2pdf是一个图形工具,它不仅可以扫描文件,还可以导入文件并对它们执行OCR。 从这里安装gscan2pdf ,从Ubuntu软件中心或在终端中运行此命令:
sudo apt-get install gscan2pdf
- 运行gscan2pdf
- 导入pdf(Ctrl + O)
- 可选:工具>清理
- 选择工具> OCR保存(Ctrl + S)
Gscan2PDF可以使用可定制的OCR引擎,默认为tesseract-ocr
您可以考虑选择适当的语言。 在这种情况下,您需要安装tesseract-ocr-LANG
软件包,其中LANG
是三字母ISO 639-2语言代码。 现在你在16.04 repo上有108种语言。
- 资源
我用pdfocr.rb取得了成功(16.04以下)。 这在Ubuntu wiki上列出
这是一个ppa但是16.04的存储库没有更新。 上面来自github的ruby脚本虽然仍然适用于16.04。
你可以从Github下载它。 您将需要安装以下软件包:
ruby tesseract-ocr pdftk exactimage
然后制作pdfocr.rb可执行文件并运行:
./pdfocf.rb -i source.pdf -o output.pdf
(可选)您可以使用-l LANG
参数。 在这种情况下,您需要安装tesseract-ocr-LANG
软件包,其中LANG
是三字母ISO 639-2语言代码。 现在你在16.04 repo上有108种语言。
最好和最简单的方法是使用pypdfocr
它不会改变pdf。 pypdfocr是一个python模块链接。
pypdfocr your_document.pdf
最后,您将获得另一个your_document_ocr.pdf
,您可以使用可搜索的文本。 该应用程序不会改变图像的质量。 通过添加叠加文本来增加文件的大小。
我认为命令非常简单,不需要任何GUI。 也许安装pypdfocr有点冗长:
sudo apt install tesseract-ocr pip install pypdfocr
gscan2pdf包括3个不同的ocr引擎。 您可以直接扫描到程序或将PDF文件导入程序。 我发现Tesseract引擎运行良好,而且非常易于使用