例子代码链接:https://github.com/pannous/tensorflow-speech-recognition
里面不但有程序代码还有数据集为:spoken_numbers_pcm.tar和spoken_numbers_spectros_64x64.tar,位于主文件夹,如下图:
英文数字语音识别
这个数据集包含许多人阅读的0–9的英文的音频。分为男生和女声,一段音频中只有一个数字对应的英文的声音。
直接在主文件夹中建立data文件夹,并把这两个数据集拷贝到data文件夹中,解压并保留tar文件,程序直接读的就是tar文件,但程序中可能应付不了tar文件,所以也要解压一份备给傻冒程序。
英文数字语音识别
此程序用的是前面那个数据集,后面的哪个干嘛用的没发现。然后运行number_classifier_tflearn.py,根据程序要求,如下图:
英文数字语音识别
拷贝spoken_numbers_pcm.tar文件夹中的一个5_Vicki_260.wav声音文件到主文件夹speech下,结果如下:
英文数字语音识别
成功识别出所说的英文数字是5。运行的很快,也不用加载模型文件,直接训练直接用的。

相关文章:

  • 2021-12-25
  • 2022-02-10
  • 2021-12-09
  • 2022-12-23
  • 2022-01-24
  • 2021-06-28
  • 2021-12-05
  • 2021-12-10
猜你喜欢
  • 2021-07-10
  • 2022-12-23
  • 2021-12-09
  • 2021-10-18
  • 2022-12-24
  • 2021-12-10
  • 2021-08-02
相关资源
相似解决方案