【发布时间】:2018-07-01 12:06:56
【问题描述】:
我正在尝试查找 Keith Ito 制作的 LJ Speech Dataset 之类的数据库。我需要在 TacoTron 2 (Link) 中使用这些数据集,所以我认为数据集需要以某种方式构建。 LJ 数据库直接链接到 tacotron 2 github 页面,所以我认为可以安全地假设它可以使用它。所以我认为数据库应该具有与 LJ 相同的结构。我下载了数据集,发现它的结构是这样的:
main folder:
-wavs
-001.wav
-002.wav
-etc
-metadata.csv: This file is a csv file which contains all the things said in every .wav, in a form like this **001.wav | hello etc.**
那么,我的问题是:还有其他类似的数据集可以进一步训练吗?
但我认为可能存在问题,例如,来自一个数据集的声音会与另一个数据集中的声音不同,这会导致太多问题吗? 还有不同的俚语或类似的东西会导致问题吗?
【问题讨论】:
-
你找到了吗?必须有一种方法可以从有声读物和字幕中制作这样的数据集。认为将其分解为 13000 个片段会非常乏味。我想知道还有什么可以收获的。外语学习记录。