【问题标题】:Datasets like "The LJ Speech Dataset"像“The LJ Speech Dataset”这样的数据集
【发布时间】:2018-07-01 12:06:56
【问题描述】:

我正在尝试查找 Keith Ito 制作的 LJ Speech Dataset 之类的数据库。我需要在 TacoTron 2 (Link) 中使用这些数据集,所以我认为数据集需要以某种方式构建。 LJ 数据库直接链接到 tacotron 2 github 页面,所以我认为可以安全地假设它可以使用它。所以我认为数据库应该具有与 LJ 相同的结构。我下载了数据集,发现它的结构是这样的:

main folder:

    -wavs

        -001.wav

        -002.wav

        -etc
    -metadata.csv: This file is a csv file which contains all the things said in every .wav, in a form like this **001.wav | hello etc.**

那么,我的问题是:还有其他类似的数据集可以进一步训练吗?

但我认为可能存在问题,例如,来自一个数据集的声音会与另一个数据集中的声音不同,这会导致太多问题吗? 还有不同的俚语或类似的东西会导致问题吗?

【问题讨论】:

  • 你找到了吗?必须有一种方法可以从有声读物和字幕中制作这样的数据集。认为将其分解为 13000 个片段会非常乏味。我想知道还有什么可以收获的。外语学习记录。

标签: python dataset


【解决方案1】:

有一些资源:

我要看的主要是 Festvox(又名 CMU artic)http://www.festvox.org/dbs/index.html 和 LibriVoc https://librivox.org/

这些家伙似乎在维护一份清单 https://github.com/candlewill/Speech-Corpus-Collection

我是一个收集更多的项目的一部分(无耻的自我插入):https://github.com/Idlak/Living-Audio-Dataset

【讨论】:

    【解决方案2】:

    Mozilla 包含一个包含多个数据集的数据库,如果您不需要自己的自定义语言或语音,您可以下载和使用:https://voice.mozilla.org/data

    或者,您可以按照您在 OP 中概述的结构创建自己的数据集。 metadata.csv 文件至少需要包含两列——第一列是 WAV 文件的路径/名称(不带 .wav 扩展名),第二列是已朗读的文本。

    除非您使用扬声器嵌入/多扬声器模型训练 Tacotron,否则您会希望所有录音都来自同一个扬声器。理想情况下,音频质量应该与最少量的背景噪音非常一致。使用RNNoise 可以去除一些背景噪音。 a script in the Mozilla Discourse group 可以用作参考。所有录音文件都必须是短的、22050 Hz、16 位的音频剪辑。

    至于渣或地方俗语——不确定;我怀疑只要这个词的发音与所写的相匹配(即音素匹配),我希望系统能够处理它。 Tacotron 能够处理/训练多种语言。

    如果您没有资源制作自己的录音,您可以使用目标语言的许可有声读物中的音频。这里有一个关于这个主题的教程:https://medium.com/@klintcho/creating-an-open-speech-recognition-dataset-for-almost-any-language-c532fb2bc0cf

    教程有你:

    1. 从有声读物中下载音频。
    2. 使用 Audacity 删除所有无用的部分(例如介绍、前言等)。
    3. 使用Aeneas进行微调,然后将电子书的音频和文本强制对齐导出,以便逐句导出音频。
    4. 创建包含从音频到片段的映射的metadata.csv 文件。 (帖子描述的格式似乎包含了一些额外的列,这些列并不是训练真正需要的,主要供 Mozilla 的在线数据库使用)。

    然后,您可以将此数据集与支持 LJSpeech 的系统一起使用,例如 Mozilla TTS

    【讨论】:

      猜你喜欢
      • 2017-08-12
      • 1970-01-01
      • 2021-11-29
      • 1970-01-01
      • 1970-01-01
      • 2017-01-10
      • 2017-10-21
      • 2022-06-22
      • 2011-07-02
      相关资源
      最近更新 更多