如何从图像中提取文本?

如何从图像中提取文本?

我不是在谈论扫描文件,而是花园种类的图像,例如当你在课堂上拍摄黑板的高清图片时,它很好地手写; 或者当您从食谱书中拍摄页面并想要文本格式的食谱时。

任何免费和开放的软件?

我尝试了tesseract,结果很糟糕。

从图像中提取文本的行为称为OCR ,Ubuntu具有专用于OCR的维基页面。 从那个页面:

可用的OCR工具

Ubuntu Universe存储库包含以下OCR工具:

  1. gocr – 命令行OCR
  2. fuzzyocr – 用于检查图像附件的spamassassin插件
  3. libhocr0 – 希伯来语OCR
  4. ocrad – 光学字符识别程序
  5. ocrfeeder – 文档布局分析和光学字符识别系统
  6. ocropus – 文件分析和OCR系统
  7. 正方体-OCR

Ubuntu multiverse存储库还包含:

  1. 楔形文字 – 多语言OCR系统

有些软件包已经过时,但非官方的新软件包可以在Alex_P PPA中找到(PPA添加代码:ppa:alex-p / notesalexp)。 如果您从未使用过PPA,请检查如何从PPA添加软件 。

编辑:如评论中所示克拉拉OCR也存在,但它在哈代得到了stuk,他们的网站在2009年最后一次更新。

与其他所有人相比, tesseract-ocr将是伟大的。 对于安装,运行命令sudo apt-get install tesseract-ocr

用法是tesseract filename.jpg output.txt

上面的命令将生成output.txt

您可以考虑选择适当的语言。 在这种情况下,您需要安装tesseract-ocr-LANG软件包,其中LANG是三字母ISO 639-2语言代码。 现在你在16.04 repo上有108种语言。 然后使用 tesseract filename.jpg output -l LANG