【问题标题】:Features for speaker recognition that can be added to mfcc features/ Things that I can do in order to improve my speaker recognition neural network可以添加到 mfcc 功能中的说话人识别功能/为了改进说话人识别神经网络我可以做的事情
【发布时间】:2020-07-01 14:02:14
【问题描述】:

我正在尝试创建一个说话人识别机器学习。

目前我正在使用以下方案:

  1. 获取我的音频文件数据集,并为音频文件的每 0.15 秒计算 13 mel 频率系数
  2. 我将每 13 个系数输入到基于 [conv, pool, norm] 的 3 个块的神经网络中
  3. 对于测试文件,我使用每个 13 个系数向量的所有输出的多数

我通常对 3 个发言者的识别率约为 85%,这并不令人惊讶,因此我决定要添加一些功能,但我不知道要添加什么...

有人建议我应该添加什么功能/我应该怎么做才能增加我的百分比?

我尝试使用一个名为“pitch”的模块,它给了我一个 wav 文件的音高,但它给了我非常随机的值(例如,对于同一个扬声器,它给了我 360、80、440 的第一个音频)

非常感谢您的帮助

【问题讨论】:

    标签: python neural-network voice-recognition mfcc pitch


    【解决方案1】:

    您应该一次处理较长的块,在 0.15 秒内几乎不可能识别说话者身份。

    一般规则是您处理的音频越长,您的识别就越准确。像 1-3 秒这样的时间是好的,你需要将它们作为一个整体输入到神经网络中。

    你可以在 github 上搜索 x-vector,有很多实现,你可以在 kaldi 中找到一个。

    【讨论】:

      猜你喜欢
      • 2020-03-12
      • 2020-03-21
      • 2017-05-18
      • 2015-04-21
      • 1970-01-01
      • 1970-01-01
      • 2022-01-19
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多