Elman SRN 的单词/音素语料库（英语）答案

【问题标题】：Word/Phoneme Corpus for an Elman SRN (English)Elman SRN 的单词/音素语料库（英语）
【发布时间】：2011-09-07 04:54:16
【问题描述】：

我正在编写一个 Elman 简单循环网络。我想给它一个单词序列，每个单词都是一个音素序列，我想要大量的训练和测试数据。

所以，我需要的是一个英语单词语料库，连同它们所组成的音素，写成 ARPAbet 或 SAMPA 之类的东西。英式英语会很好，但只要我知道我在处理什么就不是必需的。有什么建议吗？

我目前没有时间也没有兴趣编写从口语或书面数据中派生出单词的音素的代码，因此请不要这样做。

注意：我知道CMU Pronouncing Dictionary，但它声称它仅基于 ARPABet 符号集 - 任何人都知道是否真的有任何差异，如果有，它们是什么？（如果没有，那我就用那个……）

编辑：CMUPD 0.7a Symbol list - 元音可能有词汇重音，并且有变体（ARPABET 标准符号）表明这一点。

【问题讨论】：

【解决方案1】：

CMUdict 应该没问题。 “Arpabet 符号集”仅表示 Arpabet。如果有任何细微差别，应在 CMUdict 文档中进行说明。

如果您需要比将单个单词的字典发音串在一起更贴近现实生活的数据，请查找按音标转录的语料库，例如 TIMIT。

【讨论】：

我的主要问题不是该短语的“符号集”部分，而是“基于”部分。查看他们的symbol list，结合我在问题中链接到的页面上的描述，唯一的区别似乎是他们添加了表示词汇压力的变体。另外，感谢您提到语音转录的语料库 - 一旦我掌握了单个单词的基本知识，这对我来说是一个很好的方向。