什么是最好,最简单的OCR解决方案?

我想扫描一下我躺在身边的大量文件,尽量减少麻烦。 我想使用简单扫描将它们转换为图像,然后使用OCR将它们转换为文本。 是否有一个带有GUI的优秀OCR应用程序,只需按一下按钮就可以获得良好的效果?

  • GOCR 来自 OCR(光学字符识别)程序。 它将文本的扫描图像转换回文本文件。

  • CLARA是另一个很好的图形选项。

  • OCRAD 来自 OCR,可以用作独立的控制台应用程序,也可以用作其他程序的后端。

  • KOOKA 来自 KDE应用程序,但工作正常,此外你必须安装实际的OCR程序,如GOCR和OCRAD。安装Kooka和OCR程序后,你必须将Kooka指向OCR安装位置,以便它能够将JPEG转换为文本。

  • OCRFeeder 来自文档布局分析和光学字符识别系统。

  • Tesseract 来自命令行实用程序,它使用起来非常简单。您可以从这里安装语言包tesseract-ocr-eng 。

看看这个页面 。

注意:
要运行tesseract goto终端并键入以下内容

tesseract imagefile.tif outputfile.txt 

Tesseract只能读取TIFF文件 – 如果你有JPEG或PDF或其他什么,你将不得不转换它。 此外,文件扩展名必须是.tif,而不是.tiff,否则会出现tesseract错误。

Linux的智能-OCR-溶液

免责声明 – 我与此开源解决方案的开发密切相关

Lios可以使用扫描仪或相机将打印转换为文本。

它还可以从其他来源(例如包含图像的Pdf,图像或文件夹)生成扫描图像。

该计划为视障人士提供完全无障碍服务。

由于我紧密相连 – 我很乐意反馈。

  • Sourceforge的网站
  • 源代码
  • 论坛

您可以使用几种流行的OCR命令行工具(我不确定他们是否有GUI):

  • Tesseract ( ReadMe , FAQ )(Python)

    也可用于: Tesseract .NET , Tesseract iOS

    一种OCR引擎,于1985年至1995年间在惠普实验室开发,现在又在Google上开发。 Tesseract可能是最准确的开源OCR引擎。

    用法:

     tesseract [inputFile] [outputFile] [-l optionalLanguageFile] [PathTohOCRConfigFile] 
  • GOCR

    开源字符识别。 它将扫描的文本图像转换回文本文件。 GOCR可以与不同的前端一起使用,这使得很容易移植到不同的操作系统和架构。 它可以打开许多不同的图像格式,其质量每天都在提高。

  • OCRopus ™( FAQ )(用Python,NumPy和SciPy编写)

    OCR系统专注于使用大规模机器学习来解决文档分析中的问题,具有可插拔布局分析,可插入字符识别,统计自然语言建模和多语言function。

    OCRopus引擎基于两个研究项目:90年代中期开发并由美国人口普查局部署的高性能手写识别器,以及新颖的高性能布局分析方法。

    OCRopus的开发由Google赞助,最初用于高吞吐量,大批量文档转换工作。 我们希望它也是许多其他应用的优秀OCR系统。

  • Tessnet2 (开源,OCR,Tesseract,.NET,DOTNET,C#,VB.NET,C ++ / CLI)

    Tesseract是一个C ++开源OCR引擎。 Tessnet2是.NET程序集,它公开了非常简单的OCR方法。 Tessnet2属于Apache 2许可证(如tesseract),这意味着您可以按照自己的意愿使用它,包含在商业产品中。

其他几个: 用于Linux的ABBYY CLI OCR , Asprise OCR

有关更完整的列表,请查看:Wikipedia上的光学字符识别软件列表

另请参阅: wanghaisheng/awesome-ocr – GitHub上有前途的OCR资源的wanghaisheng/awesome-ocr列表 。

Gscan2PDF

OCR在多页PDF或扫描文档上

这可能是最简单的方法。 Gscan2pdf是一个图形工具,它不仅可以扫描文件,还可以导入文件并对它们执行OCR。 从这里安装gscan2pdf 安装gscan2pdf ,从Ubuntu软件中心或在终端中运行此命令:

 sudo apt-get install gscan2pdf 
  • 运行gscan2pdf
  • 导入pdf(Ctrl + O)
  • 可选:工具>清理
  • 选择工具> OCR保存(Ctrl + S)

Gscan2PDF可以使用可定制的OCR引擎,默认为tesseract-ocr

您可以考虑选择适当的语言。 在这种情况下,您需要安装tesseract-ocr-LANG软件包,其中LANG是三字母ISO 639-2语言代码。 现在你在16.04 repo上有108种语言。

  • 资源

我用pdfocr.rb取得了成功(16.04以下)。 这在Ubuntu wiki上列出

这是一个ppa但是16.04的存储库没有更新。 上面来自github的ruby脚本虽然仍然适用于16.04。

你可以从Github下载它。 您将需要安装以下软件包:

 ruby tesseract-ocr pdftk exactimage 

然后制作pdfocr.rb可执行文件并运行:

 ./pdfocf.rb -i source.pdf -o output.pdf 

(可选)您可以使用-l LANG参数。 在这种情况下,您需要安装tesseract-ocr-LANG软件包,其中LANG是三字母ISO 639-2语言代码。 现在你在16.04 repo上有108种语言。

最好和最简单的方法是使用pypdfocr它不会改变pdf。 pypdfocr是一个python模块链接。

 pypdfocr your_document.pdf 

最后,您将获得另一个your_document_ocr.pdf ,您可以使用可搜索的文本。 该应用程序不会改变图像的质量。 通过添加叠加文本来增加文件的大小。

我认为命令非常简单,不需要任何GUI。 也许安装pypdfocr有点冗长:

 sudo apt install tesseract-ocr pip install pypdfocr 

gscan2pdf包括3个不同的ocr引擎。 您可以直接扫描到程序或将PDF文件导入程序。 我发现Tesseract引擎运行良好,而且非常易于使用