语音、性别区分/识别的音频分析答案

【问题标题】：Audio analysis for voice, gender diarization/recognition语音、性别区分/识别的音频分析
【发布时间】：2016-08-07 13:04:07
【问题描述】：

有没有人知道一个库、程序、项目等试图确定音频文件中有多少说话者处于活动状态、标记每个说话者、标记其性别等？

到目前为止，我发现了以下内容：

【问题讨论】：

你检查过Project Oxford - Microsoft Cognitive Services 的一部分 - 他们已经产生了Emotion 和Speaker Recognition sdk 等。这可能会让你开始。
谢谢@brandall。这是一个很好的检查资源:)
@Aley 请告诉你什么对你有用。我尝试了 pyaudioanalysis，但它在区分女性和女性时惨遭失败。
没发现什么好东西:(

标签： voice-recognition

【解决方案1】：

识别有多少人并将片段分配给音频文件中的说话者的任务称为说话者分类。使用此关键字进行搜索，您可以在 python 中找到大量研究论文和一些库。当前的大多数研究使用深度学习模型（通常是 RNN）来生成嵌入，然后将它们聚集成不同的块，理想情况下属于不同的说话者。这是一项艰巨的任务，尤其是在您的文件嘈杂的情况下。我没有找到任何非常准确的库/工具。甚至 IBM 的 API 也没有那么准确。

我们为此任务自行开发了一些深度学习模型，这些模型通过 API 公开。您可以查看https://developers.deepaffects.com/ 了解更多信息。我们还有性别和情感识别 API。

披露 - 我在 deepaffects 工作

【讨论】：