【发布时间】:2021-02-18 16:52:58
【问题描述】:
所以,基本上我有大量基于单词的数据集。 每个数据绝对有不同的时间长度。
这是我的方法:
- 标记给定的数据集
- 对训练数据 (80%) 和测试数据 (20%) 使用分层 KFold 拆分数据
- 使用 MFCC 提取幅度、频率和时间
- 由于从 MFCC 提取的每个数据的时间序列都不同,我想使用 DTW 使所有数据的时间维度长度完全相同。
- 然后我将使用 DTW 数据通过神经网络对其进行训练。
我的问题是:
- 我的方法(尤其是第四步)是否正确?
- 如果我的方法是正确的,如何使用 DTW 将每个音频转换为相同的长度? 因为基本上我只能比较 MFCC 数据的两个音频,当我尝试更改为其他音频数据时,长度的结果将完全不同。
【问题讨论】:
标签: python speech-recognition speech-to-text mfcc dtw