【问题标题】:Detect multiple voices without speech recognition在没有语音识别的情况下检测多个声音
【发布时间】:2016-07-11 10:21:51
【问题描述】:

有没有办法实时检测是否有多个人在说话?我需要一个语音识别api吗?

我不想分离音频,也不想转录它。我的方法是经常使用一个麦克风(-> 单声道)进行录音,然后分析这些录音。但是,我将如何检测和区分声音呢?我会通过仅查看相关频率来缩小范围,但是...

我明白这不是一件小事。这就是为什么我确实希望有一个开箱即用的 api 能够做到这一点 - 最好是移动/网络友好的 api。

现在这听起来像是圣诞节的购物清单,但如前所述,我不需要了解有关内容的任何信息。所以我的猜测是,成熟的语音识别会对性能产生很大影响。

【问题讨论】:

    标签: audio mobile speech-recognition audio-analysis


    【解决方案1】:

    大多数类似的问题(成人/儿童分类器、语音/音乐分类器、单一语音/语音混合分类器)都是标准机器学习问题。您可以使用 GMM 之类的分类器来解决它们。你只需要为你的任务构建训练数据,所以:

    1. 录一些干净的录音,你可以下载有声读物
    2. 通过混合干净的记录来准备混合数据
    3. 同时训练 GMM 分类器
    4. 比较干净语音 GMM 和混合语音 GMM 的概率,并根据两个分类器的概率比来确定混合的存在。

    您可以在这里找到一些代码示例:

    https://github.com/littleowen/Conceptor

    比如你可以试试

    https://github.com/littleowen/Conceptor/blob/master/Gender.ipynb

    【讨论】:

    • 谢谢,这看起来很不错。我想我理解它背后的想法,并会尝试运行它。理想情况下,该程序需要在启动时根据当前语音训练 GMM 分类器。我还没有使用过python,但我会尝试一下。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-10-16
    • 2018-07-13
    • 2021-11-22
    • 1970-01-01
    • 2011-05-05
    • 1970-01-01
    相关资源
    最近更新 更多