深度学习算法的平均输出答案

【问题标题】：Average outputs of deep learning algorithm深度学习算法的平均输出
【发布时间】：2021-01-18 23:21:09
【问题描述】：

我正在尝试对一些音频剪辑进行分类，为此我必须将那些每个 30 秒长的音频剪辑拆分为 1 秒剪辑。然后我想把这个 1 秒的音频剪辑放在一个分类器中，并对所有 30 个 1 秒的音频文件的输出进行平均，以获得我的最终响应。我希望每 30 个输入有 1 个输出。

我的问题是我不知道如何在我的分类器中输入它们，我不能按照here 的建议使用多个输入，因为我有 30 个输入，而不仅仅是 2 个，那将是一团糟。

【问题讨论】：

【解决方案1】：

您提到的链接是关于有 2 个单独的输入管道而不是 2 个输入音频剪辑。您需要将 30 个一秒音频 数据包装在 Tensor 中（如果您使用的是 Tensorflow，则使用与您正在使用的框架等效的框架）

然后可以将Tensor 输入到您的深度学习模型的一个输入管道中。

【讨论】：

没错，我不需要单独的管道。我做了很多步骤，显然我确实为每 1 秒剪辑计算了一次 FFT。但最后我为每个音频剪辑提供了 30 个数组，正如你所说，我找不到任何说明我应该如何将它们包装在一个张量中的东西。感谢您的回复！
在 Tensorflow 2.x 中，Numpy 和 Tensor 是可以互换的。这使得将 30 个数组包装在另一个 Numpy 数组中变得很容易。您可以参考Tensors and operations 了解更多关于张量使用的信息