【问题标题】:Average outputs of deep learning algorithm深度学习算法的平均输出
【发布时间】:2021-01-18 23:21:09
【问题描述】:

我正在尝试对一些音频剪辑进行分类,为此我必须将那些每个 30 秒长的音频剪辑拆分为 1 秒剪辑。 然后我想把这个 1 秒的音频剪辑放在一个分类器中,并对所有 30 个 1 秒的音频文件的输出进行平均,以获得我的最终响应。我希望每 30 个输入有 1 个输出。

我的问题是我不知道如何在我的分类器中输入它们,我不能按照here 的建议使用多个输入,因为我有 30 个输入,而不仅仅是 2 个,那将是一团糟。

【问题讨论】:

    标签: python tensorflow keras deep-learning classification


    【解决方案1】:

    您提到的链接是关于有 2 个单独的输入 管道 而不是 2 个输入音频剪辑。您需要将 30 个一秒音频 数据包装在 Tensor 中(如果您使用的是 Tensorflow,则使用与您正在使用的框架等效的框架)

    然后可以将Tensor 输入到您的深度学习模型的一个输入管道中。

    查看在 Tensoflow 中处理音频数据的教程: Tensorflow Audio Data Preparation and Augmentation Tutorial

    【讨论】:

    • 没错,我不需要单独的管道。我做了很多步骤,显然我确实为每 1 秒剪辑计算了一次 FFT。但最后我为每个音频剪辑提供了 30 个数组,正如你所说,我找不到任何说明我应该如何将它们包装在一个张量中的东西。感谢您的回复!
    • 在 Tensorflow 2.x 中,Numpy 和 Tensor 是可以互换的。这使得将 30 个数组包装在另一个 Numpy 数组中变得很容易。您可以参考Tensors and operations 了解更多关于张量使用的信息
    猜你喜欢
    • 2019-05-01
    • 2019-04-25
    • 2021-06-17
    • 2020-06-16
    • 2017-04-24
    • 2020-02-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多