试图提出从声波中提取的特征，以用于 AI 歌曲作曲家答案

【问题标题】：Trying to come up with features to extract from sound waves to use for an AI song composer试图提出从声波中提取的特征，以用于 AI 歌曲作曲家
【发布时间】：2015-10-03 19:07:58
【问题描述】：

我正计划制作一个 AI 歌曲作曲家，它可以接收一种乐器的一堆歌曲，从声波中提取音符（如 ABCDEFG）和某些特征，进行机器学习（很可能通过循环神经网络），并输出一系列 ABCDEFG 音符（也就是生成自己的歌曲/音乐）。

我认为这将是一个无监督学习问题，但我不太确定。

我想我会使用循环神经网络，但我有几个关于如何处理这个问题的问题：
- 我应该从声波中提取哪些特征才能使输出的音乐悦耳？

另外，我还有一些其他问题 - 是否有可能通过循环神经网络输出一个序列音符向量 (ABCDEF)？
- 有什么聪明的方法可以输入声波的特征以及音符序列吗？

【问题讨论】：

标签： audio machine-learning artificial-intelligence neural-network signal-processing

【解决方案1】：

好吧，我曾经做过类似的事情（在 matlab 上制作类似 shazam 的应用程序），我认为您可以使用 FFT（快速傅里叶变换）将其分解为组成频率及其相应的幅度。然后您可以使用频率范围从不同的乐器中挑选出来并分类。

【讨论】：

您需要额外的转换才能从 FFT（如 MFCC）中获取可靠的数据。单独的 FFT 作为训练数据的基础过于嘈杂。

【解决方案2】：

我已经尝试过使用 RNN（循环神经网络）进行类似的操作。尝试使用 LSTM 网络（Long Short Term Memory），根据我后来读到的数据处理，它们比 RNN 好得多，因为它们不受“梯度消失问题”的影响。

Chris Thaliyath 所说的是如何训练特征检测器的一个很好的提示。

【讨论】：