【问题标题】:How to detect the voice from an audio stream如何从音频流中检测语音
【发布时间】:2012-01-12 07:11:30
【问题描述】:

我需要确定某人何时在音频流中讲话。我应用了汉明窗并计算了 FFT。如何从这里检测人声?

【问题讨论】:

    标签: signal-processing fft audio-processing


    【解决方案1】:

    如果您想试验自己的语音活动检测算法,可以使用 FFT 作为初始阶段。接下来,您可能想尝试减去任何具有特征的固定光谱噪声背景。然后您可以尝试使用修改后的 FFT 结果来计算倒谱(或一些加权倒谱系数)以进行特征提取。然后,您可以对决定提取的任何特征向量进行一些统计模式匹配,并将结果提供给决策算法。

    上述每个步骤都可能是一个研究主题,一个好的实施可能涉及研究数十篇已发表的研究论文,这些论文也许可以在您的大学图书馆中找到。

    【讨论】:

      【解决方案2】:

      你不需要为此做 FFT,你需要实现一个Voice Activity Detection 算法。

      【讨论】:

      • 好吧,我想检测来自 FFT 的声音。我可以这样做吗?
      • 目前尚不清楚为什么在 VAD 已建立算法时要重新发明轮子 - 您是否阅读了我链接到的 Wikipedia 页面?
      • 是的,我读过,但没有找到任何与我的问题相关的内容。
      • OK - 您可以尝试点击文章中的链接,例如符合 G729 标准。
      猜你喜欢
      • 2018-12-15
      • 1970-01-01
      • 1970-01-01
      • 2022-11-21
      • 2015-08-05
      • 2013-10-14
      • 1970-01-01
      • 2013-05-22
      • 1970-01-01
      相关资源
      最近更新 更多