使用 TensorFlow Dataset API 的音频背景噪声答案

【问题标题】：Background noise for audio using Tensorflow Dataset API使用 TensorFlow Dataset API 的音频背景噪声
【发布时间】：2017-11-19 20:03:20
【问题描述】：

我正在为语音识别系统构建输入管道。我使用数据集 API 成功阅读了 WAV 中的一些短语（真的很令人印象深刻，它是如此简单和快速），还有一些带有背景噪音的音频文件，我想将它们与我的短语混合以增强它们并使系统更健壮噪音。

我想随机选择具有单独tf.data.Dataset.shuffle() 的背景噪声样本，然后将其与另一个tf.data.Dataset 样本中的样本混合。

如何连接两个不同长度的数据集（bg 噪声数据集可能是无限的）？ tf.data.Dataset.zip 在这里合适吗？

UPD： tf.data.Dataset.zip 成功工作，但如果噪声样本数据集很小，您应该将其相乘，使其大小等于语音样本数据集的大小。如果您不这样做，则生成的数据集将具有压缩在一起的数据集中最短的数据集长度。

【问题讨论】：

【解决方案1】：

tf.data.Dataset.zip 成功运行，但如果噪声样本数据集很小，则应将其相乘，使其大小等于语音样本数据集的大小。如果您不这样做，则生成的数据集将在压缩在一起的数据集中具有最短数据集的长度。

【讨论】：