如何从图像中提取文本?
如何从图像中提取文本?
我不是在谈论扫描文件,而是花园种类的图像,例如当你在课堂上拍摄黑板的高清图片时,它很好地手写; 或者当您从食谱书中拍摄页面并想要文本格式的食谱时。
任何免费和开放的软件?
我尝试了tesseract,结果很糟糕。
从图像中提取文本的行为称为OCR
,Ubuntu具有专用于OCR的维基页面。 从那个页面:
可用的OCR工具
Ubuntu Universe存储库包含以下OCR工具:
- gocr – 命令行OCR
- fuzzyocr – 用于检查图像附件的spamassassin插件
- libhocr0 – 希伯来语OCR
- ocrad – 光学字符识别程序
- ocrfeeder – 文档布局分析和光学字符识别系统
- ocropus – 文件分析和OCR系统
- 正方体-OCR
Ubuntu multiverse存储库还包含:
- 楔形文字 – 多语言OCR系统
有些软件包已经过时,但非官方的新软件包可以在Alex_P PPA中找到(PPA添加代码:ppa:alex-p / notesalexp)。 如果您从未使用过PPA,请检查如何从PPA添加软件 。
编辑:如评论中所示克拉拉OCR也存在,但它在哈代得到了stuk,他们的网站在2009年最后一次更新。
与其他所有人相比, tesseract-ocr
将是伟大的。 对于安装,运行命令sudo apt-get install tesseract-ocr
。
用法是tesseract filename.jpg output.txt
。
上面的命令将生成output.txt
。
您可以考虑选择适当的语言。 在这种情况下,您需要安装tesseract-ocr-LANG
软件包,其中LANG
是三字母ISO 639-2语言代码。 现在你在16.04 repo上有108种语言。 然后使用 tesseract filename.jpg output -l LANG
。