【发布时间】:2015-06-30 19:49:29
【问题描述】:
我正在尝试为僧伽罗语语言创建一个语音识别系统。我试图创建一个语言模型,但遵循Build NEW Acoustic model, Dictionary , Language model for uncommon language speech recognition 中的答案。我在windows上同时使用了在线lmtool和cmuclmtk-0.7-win32。我的输入文件如下,
එක eka
දෙක de ka
තුන thu na
හතර ha tha ra
පහ pa ha
හය ha iya
හත ha tha
අට ah ta
නවය na wa ya
提交到 lmtool 和 cmuclmtk 后,我得到如下输出,
AHTA AE T AH
DEKA D AH K AA
EKA EH K AH
HAIYA HH EY AY AH
HATHA HH AE TH AH
HATHARA HH AE TH AH R AH
NAWAYA N AO EY AH
PAHA P AE HH AH
THUNA TH UW N AH
à¶…à¶§
à¶à·”à¶±
දෙක
නවය
à¶´à·„
à·„à¶
à·„à¶à¶»
හය
එක
.dic 和 .lm 文件都包含上述字符。我觉得这些都是一些垃圾字符。我做错了什么得到这个?
【问题讨论】:
-
错误的文件看起来有点像使用传统 8 位编码查看的 utf-8,或者可能从错误地指定为 8 位编码的内容错误地重新编码为 utf-8。如果无法访问原始字节,我们无法真正分辨。查看
character-encodingtag wiki 了解一些背景和诊断提示。
标签: unicode speech-recognition pocketsphinx