【问题标题】:Sinhala language model issue for pocketsphinxPocketsphinx 的僧伽罗语模型问题
【发布时间】:2015-06-30 19:49:29
【问题描述】:

我正在尝试为僧伽罗语语言创建一个语音识别系统。我试图创建一个语言模型,但遵循Build NEW Acoustic model, Dictionary , Language model for uncommon language speech recognition 中的答案。我在windows上同时使用了在线lmtool和cmuclmtk-0.7-win32。我的输入文件如下,

එක  eka
දෙක de ka
තුන thu na
හතර ha tha ra
පහ  pa ha
හය  ha iya
හත  ha tha
අට  ah ta
නවය na wa ya

提交到 lmtool 和 cmuclmtk 后,我得到如下输出,

AHTA    AE T AH
DEKA    D AH K AA
EKA EH K AH
HAIYA   HH EY AY AH
HATHA   HH AE TH AH
HATHARA HH AE TH AH R AH
NAWAYA  N AO EY AH
PAHA    P AE HH AH
THUNA   TH UW N AH
à¶…à¶§  
තුන   
දෙක   
නවය   
à¶´à·„  
à·„à¶­  
à·„à¶­à¶»   
හය  
එක   

.dic 和 .lm 文件都包含上述字符。我觉得这些都是一些垃圾字符。我做错了什么得到这个?

【问题讨论】:

  • 错误的文件看起来有点像使用传统 8 位编码查看的 utf-8,或者可能从错误地指定为 8 位编码的内容错误地重新编码为 utf-8。如果无法访问原始字节,我们无法真正分辨。查看character-encoding tag wiki 了解一些背景和诊断提示。

标签: unicode speech-recognition pocketsphinx


【解决方案1】:

你做错了。

对于语料库构建,您需要一个文本文件,而不是字典文件。您单独创建字典。

您不应将在线 lmtool 用于您的语言。它仅适用于英语。

要从文本中训练语言模型,您应该使用 srilm。

【讨论】:

  • 我使用了 SRILM 和文本格式的语言文件,但结果仍然相同。我遵循了这个教程cs.brandeis.edu/~cs114/CS114_docs/SRILM_Tutorial_20080512.pdf它是针对中文的。为什么我得到那些垃圾字符?他们在我的电脑中有任何字体问题吗?或者 SRILM 不支持僧伽罗语吗?
  • 您可以共享您的文件,以便我查看。没有文件就很难为您提供帮助。
  • 我用来创建 LM 的文本文件:s000.tinyupload.com/?file_id=34268100379759743452 SRILM 生成的文件:s000.tinyupload.com/?file_id=43528215708733597235 我在 Cygwin 中使用的命令:./ngram-count -text sinhala.txt -order 3 -write NPFEOT0001。 count -unk 我的操作系统 win8.1 64 位
  • 文件看起来正确,不知道为什么你认为字符是乱码。您需要使用支持 UTF-8 的优秀编辑器来查看文件,例如 Notepad++
  • Awesome Notepad++ 做到了。从现在开始,我将使用 Notepad++ 作为我的默认编辑器。
猜你喜欢
  • 1970-01-01
  • 2016-03-03
  • 1970-01-01
  • 2013-07-08
  • 1970-01-01
  • 1970-01-01
  • 2011-10-03
  • 1970-01-01
  • 2015-07-18
相关资源
最近更新 更多