【发布时间】:2011-01-29 05:46:12
【问题描述】:
我想为高棉语(一种单词之间没有空格的语言)添加一个开源 Java 分词程序。开发者很久没做这件事了,我也没能联系到他们了解详情(http://sourceforge.net/projects/khmer/files/Khmer%20Word%20Breaking/Khmer%20Word%20Breaking %20program%20V1.0/)。假设该列表是从高棉词典创建的,我想重新创建该文件以包含更多单词。
谁能确定字典的格式(我相信它是某种类型的 Trie)?以下是前几行:
0ឳមអគណជយឍឫហកដពទឱលថឦឡញឩខនឧផប។ឋវឭឈឃឥឌឰឪសងចភធឯតឆរ
1ទ
0ក
1
1ីែមគួណជយ៍ៀហកទុលេញ៉ឺនំឹៃូឈឃោាឿសងចិ្ធើតៅរ
1គនសងរ
0ទ
0ា
0យ
0ព
0ន
1
1រ
0ា
0ស
0ី
1
有谁知道我将如何制作一个新的(我有一个很大的单词表,但我不知道如何把它变成这种格式)。
谢谢!
【问题讨论】:
标签: java dictionary trie