【发布时间】:2011-11-10 10:56:45
【问题描述】:
我有以下任务要做:填写拼写检查字典(简单的 txt 文件)我需要解析器 应该: - 在文本文件(或其他类型的文档)中解析,提取 每个单词,然后使用简单的单词列表创建文本文件,如下所示: 阿法夫 阿法斯达法 adfasfdasdf 广告 ... ETC 你会建议什么脚本语言和库?如果可能,请给出代码示例(特别是用于提取每个单词)。谢谢!
【问题讨论】:
-
你应该搜索一个叫做tokenizer的东西,它把你的单词序列分成可以传递给字典的token。网上有很多开源项目。在这里你可能会在 java 中找到一种算法:introcs.cs.princeton.edu/java/72regular/Tokenizer.java.html