【发布时间】:2012-01-12 07:11:30
【问题描述】:
我需要确定某人何时在音频流中讲话。我应用了汉明窗并计算了 FFT。如何从这里检测人声?
【问题讨论】:
标签: signal-processing fft audio-processing
我需要确定某人何时在音频流中讲话。我应用了汉明窗并计算了 FFT。如何从这里检测人声?
【问题讨论】:
标签: signal-processing fft audio-processing
如果您想试验自己的语音活动检测算法,可以使用 FFT 作为初始阶段。接下来,您可能想尝试减去任何具有特征的固定光谱噪声背景。然后您可以尝试使用修改后的 FFT 结果来计算倒谱(或一些加权倒谱系数)以进行特征提取。然后,您可以对决定提取的任何特征向量进行一些统计模式匹配,并将结果提供给决策算法。
上述每个步骤都可能是一个研究主题,一个好的实施可能涉及研究数十篇已发表的研究论文,这些论文也许可以在您的大学图书馆中找到。
【讨论】:
你不需要为此做 FFT,你需要实现一个Voice Activity Detection 算法。
【讨论】: