如何从音频流中检测语音答案

【问题标题】：How to detect the voice from an audio stream如何从音频流中检测语音
【发布时间】：2012-01-12 07:11:30
【问题描述】：

我需要确定某人何时在音频流中讲话。我应用了汉明窗并计算了 FFT。如何从这里检测人声？

【问题讨论】：

【解决方案1】：

如果您想试验自己的语音活动检测算法，可以使用 FFT 作为初始阶段。接下来，您可能想尝试减去任何具有特征的固定光谱噪声背景。然后您可以尝试使用修改后的 FFT 结果来计算倒谱（或一些加权倒谱系数）以进行特征提取。然后，您可以对决定提取的任何特征向量进行一些统计模式匹配，并将结果提供给决策算法。

上述每个步骤都可能是一个研究主题，一个好的实施可能涉及研究数十篇已发表的研究论文，这些论文也许可以在您的大学图书馆中找到。

【讨论】：

【解决方案2】：

你不需要为此做 FFT，你需要实现一个Voice Activity Detection 算法。

【讨论】：