【发布时间】:2020-07-01 14:02:14
【问题描述】:
我正在尝试创建一个说话人识别机器学习。
目前我正在使用以下方案:
- 获取我的音频文件数据集,并为音频文件的每 0.15 秒计算 13 mel 频率系数
- 我将每 13 个系数输入到基于 [conv, pool, norm] 的 3 个块的神经网络中
- 对于测试文件,我使用每个 13 个系数向量的所有输出的多数
我通常对 3 个发言者的识别率约为 85%,这并不令人惊讶,因此我决定要添加一些功能,但我不知道要添加什么...
有人建议我应该添加什么功能/我应该怎么做才能增加我的百分比?
我尝试使用一个名为“pitch”的模块,它给了我一个 wav 文件的音高,但它给了我非常随机的值(例如,对于同一个扬声器,它给了我 360、80、440 的第一个音频)
非常感谢您的帮助
【问题讨论】:
标签: python neural-network voice-recognition mfcc pitch