语音识别应用程序将MP3转换为文本?
有没有人知道可以将音频转换为文本的应用程序? 我正在运行ubuntu 12.04 LTS。
您可以使用的软件是CMUSphinx。 与其他答案中的建议不同,Julius不适合,因为它需要模型。 Julius没有大词汇量语音识别的模型。
您可以使用pocketsphinx转换音频文件。 这两个命令必须完成工作。 首先,您将文件转换为所需的格式,然后您可以识别它:
ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav
运行pocketphinx
pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt
结果将存储在result.txt中。
我希望将语音转换为文本,您可以尝试打开您的Ubuntu软件中心并搜索Julius
描述
“Julius”是一款高性能,双通道大词汇量连续语音识别(LVCSR)解码器软件,适用于与语音相关的研究人员和开发人员。
或者,软件中心中没有的另一个选项是Simon
…是一个开源语音识别程序,取代了鼠标和键盘。
参考链接
http://julius.sourceforge.jp/en_index.php
我知道这已经过时了,但是为了扩展Nikolay的答案并希望将来节省一些时间,为了获得最新版本的pocketsphinx工作,你需要从github或sourceforge存储库编译它(不确定)这是保持更新的)。 注意-j8意味着如果可能的话并行运行8个单独的作业; 如果你有更多的CPU核心,你可以增加数量。
git clone https://github.com/cmusphinx/sphinxbase.git cd sphinxbase ./autogen.sh ./configure make -j8 make -j8 check sudo make install cd .. git clone https://github.com/cmusphinx/pocketsphinx.git cd pocketsphinx ./autogen.sh ./configure make -j8 make -j8 check sudo make install cd ..
然后,来自: https : cmusphinx-en-us-....tar.gz
下载最新版本的cmusphinx-en-us-....tar.gz
和en-70k-....lm.gz
tar -xzf cmusphinx-en-us-....tar.gz gunzip en-70k-....lm.gz
然后你最终可以继续Nikolay的回答:
ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav pocketsphinx_continuous -infile book.wav \ -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \ 2>pocketsphinx.log >book.txt
狮身人面像工作正常。 我不会依赖它来制作文本的可读版本,但是如果你正在寻找特定的报价,你可以搜索它。 如果您使用像Xapian( http://www.lesbonscomptes.com/recoll/ )这样接受通配符并且不需要精确搜索表达式的搜索算法,那么这种方法尤其有用。
希望这可以帮助。
您可以使用speechpad.pw转录面板
查看使用转录的video