像“The LJ Speech Dataset”这样的数据集答案

【问题标题】：Datasets like "The LJ Speech Dataset"像“The LJ Speech Dataset”这样的数据集
【发布时间】：2018-07-01 12:06:56
【问题描述】：

我正在尝试查找 Keith Ito 制作的 LJ Speech Dataset 之类的数据库。我需要在 TacoTron 2 (Link) 中使用这些数据集，所以我认为数据集需要以某种方式构建。 LJ 数据库直接链接到 tacotron 2 github 页面，所以我认为可以安全地假设它可以使用它。所以我认为数据库应该具有与 LJ 相同的结构。我下载了数据集，发现它的结构是这样的：

main folder:

    -wavs

        -001.wav

        -002.wav

        -etc
    -metadata.csv: This file is a csv file which contains all the things said in every .wav, in a form like this **001.wav | hello etc.**

那么，我的问题是：还有其他类似的数据集可以进一步训练吗？

但我认为可能存在问题，例如，来自一个数据集的声音会与另一个数据集中的声音不同，这会导致太多问题吗？还有不同的俚语或类似的东西会导致问题吗？

【问题讨论】：

你找到了吗？必须有一种方法可以从有声读物和字幕中制作这样的数据集。认为将其分解为 13000 个片段会非常乏味。我想知道还有什么可以收获的。外语学习记录。

标签： python dataset

【解决方案1】：

有一些资源：

我要看的主要是 Festvox（又名 CMU artic）http://www.festvox.org/dbs/index.html 和 LibriVoc https://librivox.org/

这些家伙似乎在维护一份清单 https://github.com/candlewill/Speech-Corpus-Collection

我是一个收集更多的项目的一部分（无耻的自我插入）：https://github.com/Idlak/Living-Audio-Dataset

【讨论】：

【解决方案2】：

Mozilla 包含一个包含多个数据集的数据库，如果您不需要自己的自定义语言或语音，您可以下载和使用：https://voice.mozilla.org/data

或者，您可以按照您在 OP 中概述的结构创建自己的数据集。 metadata.csv 文件至少需要包含两列——第一列是 WAV 文件的路径/名称（不带 .wav 扩展名），第二列是已朗读的文本。

除非您使用扬声器嵌入/多扬声器模型训练 Tacotron，否则您会希望所有录音都来自同一个扬声器。理想情况下，音频质量应该与最少量的背景噪音非常一致。使用RNNoise 可以去除一些背景噪音。 a script in the Mozilla Discourse group 可以用作参考。所有录音文件都必须是短的、22050 Hz、16 位的音频剪辑。

至于渣或地方俗语——不确定；我怀疑只要这个词的发音与所写的相匹配（即音素匹配），我希望系统能够处理它。 Tacotron 能够处理/训练多种语言。

如果您没有资源制作自己的录音，您可以使用目标语言的许可有声读物中的音频。这里有一个关于这个主题的教程：https://medium.com/@klintcho/creating-an-open-speech-recognition-dataset-for-almost-any-language-c532fb2bc0cf

教程有你：

从有声读物中下载音频。
使用 Audacity 删除所有无用的部分（例如介绍、前言等）。
使用Aeneas进行微调，然后将电子书的音频和文本强制对齐导出，以便逐句导出音频。
创建包含从音频到片段的映射的metadata.csv 文件。（帖子描述的格式似乎包含了一些额外的列，这些列并不是训练真正需要的，主要供 Mozilla 的在线数据库使用）。

然后，您可以将此数据集与支持 LJSpeech 的系统一起使用，例如 Mozilla TTS。

【讨论】：