【问题标题】:Is there a dictionary or database of English words with each word separated by syllables? [closed]有没有每个单词由音节分隔的英语单词词典或数据库? [关闭]
【发布时间】:2009-01-20 01:45:20
【问题描述】:

我正在寻找一个现有的英语单词数据库,每个单词由音节分隔。我的目的是根据音节的分离进一步编辑任何选定文章中的每个单词。

有没有人知道可以帮助我实现这个过程的现有产品或方法?

谢谢!

【问题讨论】:

  • 根据你想要的具体程度可能很难,记住英语有很多发音

标签: data-dictionary


【解决方案1】:

这个网站有一个包含 44K 单词的文件,其中包含音节,而不仅仅是连字符。

http://www.delphiforfun.org/programs/Syllables.htm

【讨论】:

    【解决方案2】:

    我不确定这是否是您要查找的内容,但 CMU 有一个发音词典,可以清楚地显示每个音节:

    http://www.speech.cs.cmu.edu/cgi-bin/cmudict

    【讨论】:

    • +1。从技术上讲,它们不是音节,它们是音素。但是,可以根据音素和词汇重音来计算音节。
    • “根据音素和词汇重音计算音节”如何去做呢?
    • 看起来音节标记为 0 1 2,主要重点是 1。我认为您可以匹配例如0 1 0 带有字典中的 3 个音节,将音节字母分解为例如“香蕉”。听起来对吗?
    【解决方案3】:

    也许一个标准的单词列表,加上一个好的hyphenation algorithm 就可以了?

    【讨论】:

    • 连字符与音节的数量无关 - 它只是一个关于在中间分割单词的任意决定。在您给出的示例中, supercali... 等的输出是 ['su', 'per', 'cal', 'ifrag', 'ilis', 'tic', 'ex', 'pi' , 'ali', 'do', 'cious'], 包含三个多一个音节的词块,“project”连字简单为“project”。
    • 说它“与..音节无关”是一种误导。连字符从音节之间的分隔开始,但有一些不明显的调整。一些连字算法可能会错过音节中断,有时书面形式不能很好地映射到口头形式。但基本上,它是关于音节的。尤其是它可能足够接近最初的目的。
    • 连字符 可以 用于划分音节(任何 ASCII 字符都可以),但它们通常不是。字典倾向于为此目的使用 interpunct,因为连字符会导致已经连字符的单词混淆。在您展示的断字算法中,目的是标记单词中的点,当单词不适合计算机屏幕时,可以将其拆分为新行。虽然你是对的,连字符通常确实出现在音节边界上,但它并没有标记每个音节边界,这使得它不适合计算音节。
    • 例如由于连字算法的变化,说“项目”只有一个音节……给或取一两个音节并不是特别有指导意义。
    • @Lou,你是说通常连字符不在音节边界?也许您的意思不是“与音节无关”,而是“与音节无关”?
    猜你喜欢
    • 2011-02-19
    • 2011-12-15
    • 2017-10-13
    • 1970-01-01
    • 2016-07-18
    • 2012-03-03
    • 2016-11-19
    • 2011-07-06
    • 2011-01-13
    相关资源
    最近更新 更多