可以添加到 mfcc 功能中的说话人识别功能/为了改进说话人识别神经网络我可以做的事情答案

【问题标题】：Features for speaker recognition that can be added to mfcc features/ Things that I can do in order to improve my speaker recognition neural network可以添加到 mfcc 功能中的说话人识别功能/为了改进说话人识别神经网络我可以做的事情
【发布时间】：2020-07-01 14:02:14
【问题描述】：

我正在尝试创建一个说话人识别机器学习。

目前我正在使用以下方案：

获取我的音频文件数据集，并为音频文件的每 0.15 秒计算 13 mel 频率系数
我将每 13 个系数输入到基于 [conv, pool, norm] 的 3 个块的神经网络中
对于测试文件，我使用每个 13 个系数向量的所有输出的多数

我通常对 3 个发言者的识别率约为 85%，这并不令人惊讶，因此我决定要添加一些功能，但我不知道要添加什么...

有人建议我应该添加什么功能/我应该怎么做才能增加我的百分比？

我尝试使用一个名为“pitch”的模块，它给了我一个 wav 文件的音高，但它给了我非常随机的值（例如，对于同一个扬声器，它给了我 360、80、440 的第一个音频）

非常感谢您的帮助

【问题讨论】：

标签： python neural-network voice-recognition mfcc pitch

【解决方案1】：

您应该一次处理较长的块，在 0.15 秒内几乎不可能识别说话者身份。

一般规则是您处理的音频越长，您的识别就越准确。像 1-3 秒这样的时间是好的，你需要将它们作为一个整体输入到神经网络中。

你可以在 github 上搜索 x-vector，有很多实现，你可以在 kaldi 中找到一个。

【讨论】：