在没有语音识别的情况下检测多个声音答案

【问题标题】：Detect multiple voices without speech recognition在没有语音识别的情况下检测多个声音
【发布时间】：2016-07-11 10:21:51
【问题描述】：

有没有办法实时检测是否有多个人在说话？我需要一个语音识别api吗？

我不想分离音频，也不想转录它。我的方法是经常使用一个麦克风（-> 单声道）进行录音，然后分析这些录音。但是，我将如何检测和区分声音呢？我会通过仅查看相关频率来缩小范围，但是...

我明白这不是一件小事。这就是为什么我确实希望有一个开箱即用的 api 能够做到这一点 - 最好是移动/网络友好的 api。

现在这听起来像是圣诞节的购物清单，但如前所述，我不需要了解有关内容的任何信息。所以我的猜测是，成熟的语音识别会对性能产生很大影响。

【问题讨论】：

【解决方案1】：

大多数类似的问题（成人/儿童分类器、语音/音乐分类器、单一语音/语音混合分类器）都是标准机器学习问题。您可以使用 GMM 之类的分类器来解决它们。你只需要为你的任务构建训练数据，所以：

您可以在这里找到一些代码示例：

比如你可以试试

【讨论】：

谢谢，这看起来很不错。我想我理解它背后的想法，并会尝试运行它。理想情况下，该程序需要在启动时根据当前语音训练 GMM 分类器。我还没有使用过python，但我会尝试一下。