语音识别应用程序将MP3转换为文本?

有没有人知道可以将音频转换为文本的应用程序? 我正在运行ubuntu 12.04 LTS。

您可以使用的软件是CMUSphinx。 与其他答案中的建议不同,Julius不适合,因为它需要模型。 Julius没有大词汇量语音识别的模型。

您可以使用pocketsphinx转换音频文件。 这两个命令必须完成工作。 首先,您将文件转换为所需的格式,然后您可以识别它:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav 

运行pocketphinx

 pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt 

结果将存储在result.txt中。

我希望将语音转换为文本,您可以尝试打开您的Ubuntu软件中心并搜索Julius

描述

“Julius”是一款高性能,双通道大词汇量连续语音识别(LVCSR)解码器软件,适用于与语音相关的研究人员和开发人员。

或者,软件中心中没有的另一个选项是Simon

…是一个开源语音识别程序,取代了鼠标和键盘。

参考链接

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1

我知道这已经过时了,但是为了扩展Nikolay的答案并希望将来节省一些时间,为了获得最新版本的pocketsphinx工作,你需要从github或sourceforge存储库编译它(不确定)这是保持更新的)。 注意-j8意味着如果可能的话并行运行8个单独的作业; 如果你有更多的CPU核心,你可以增加数量。

 git clone https://github.com/cmusphinx/sphinxbase.git cd sphinxbase ./autogen.sh ./configure make -j8 make -j8 check sudo make install cd .. git clone https://github.com/cmusphinx/pocketsphinx.git cd pocketsphinx ./autogen.sh ./configure make -j8 make -j8 check sudo make install cd .. 

然后,来自: https : cmusphinx-en-us-....tar.gz下载最新版本的cmusphinx-en-us-....tar.gzen-70k-....lm.gz

 tar -xzf cmusphinx-en-us-....tar.gz gunzip en-70k-....lm.gz 

然后你最终可以继续Nikolay的回答:

 ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav pocketsphinx_continuous -infile book.wav \ -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \ 2>pocketsphinx.log >book.txt 

狮身人面像工作正常。 我不会依赖它来制作文本的可读版本,但是如果你正在寻找特定的报价,你可以搜索它。 如果您使用像Xapian( http://www.lesbonscomptes.com/recoll/ )这样接受通配符并且不需要精确搜索表达式的搜索算法,那么这种方法尤其有用。

希望这可以帮助。

您可以使用speechpad.pw转录面板

查看使用转录的video