【发布时间】:2014-02-25 19:16:04
【问题描述】:
我要做的是分离音频源并从原始信号中提取其音高。 我自己建模了这个过程,如下所示: 每个源在normal modes 中振荡,经常使其分量峰值的频率整数倍增。它被称为Harmonic。然后resonanced,最后线性合并。
如上所示,我对音频信号的频率响应模式有很多提示,但几乎不知道如何“分离”它。我已经尝试了无数自己的模型。这是其中之一:
- 对 PCM 进行 FFT
- 获取峰值频率区间和幅度。
- 计算音高候选频率区间。
- 对于每个音高候选,使用循环神经网络分析所有峰值并找到合适的峰值组合。
- 分离分析的候选音调。
不幸的是,到目前为止,我还没有成功地分离信号。 我想要任何建议来解决这类问题。 尤其是像我上面的源分离建模。
【问题讨论】:
-
我建议你在其他地方问 - 这个问题在这里可能过于序列化,并且本身并不是一个真正的软件开发问题。
-
试试快速 ICA(独立成分分析)?
-
我的理解是,组合的音高和幅度可以来自无数不同的源信号,因此不可能找到正确的起源。我建议在 MFCC 上应用自动特征提取(稀疏自动编码器)以获得每个源组合所特有的相当微妙的特征。我渴望对此进行测试,如果您可以提供托管此类数据集的链接,我可能会为您提供一个合理的解决方案。谢谢!
-
亲爱的@Memming,我当然听说过 ICA,但 AFAIK 它需要 N 监视器来分离 N 源。它不适合我的情况,因为音频文件通常少于 3 个通道。
标签: audio machine-learning neural-network signal-processing source-separation