【发布时间】:2011-09-07 04:54:16
【问题描述】:
我正在编写一个 Elman 简单循环网络。我想给它一个单词序列,每个单词都是一个音素序列,我想要大量的训练和测试数据。
所以,我需要的是一个英语单词语料库,连同它们所组成的音素,写成 ARPAbet 或 SAMPA 之类的东西。英式英语会很好,但只要我知道我在处理什么就不是必需的。有什么建议吗?
我目前没有时间也没有兴趣编写从口语或书面数据中派生出单词的音素的代码,因此请不要这样做。
注意:我知道CMU Pronouncing Dictionary,但它声称它仅基于 ARPABet 符号集 - 任何人都知道是否真的有任何差异,如果有,它们是什么? (如果没有,那我就用那个……)
编辑:CMUPD 0.7a Symbol list - 元音可能有词汇重音,并且有变体(ARPABET 标准符号)表明这一点。
【问题讨论】:
-
CMUPD ARPABet 的区别和什么?普通的arpabet?
-
是的,CMUPD ARPAbet 和常规 ARPAbet。
标签: nlp neural-network phoneme