如何制作文本文件（或其他文件）解析器？ [关闭]答案

【问题标题】：How to make text file (or other documents') parser? [closed]如何制作文本文件（或其他文件）解析器？ [关闭]
【发布时间】：2011-11-10 10:56:45
【问题描述】：

我有以下任务要做：填写拼写检查字典（简单的 txt 文件）我需要解析器应该： - 在文本文件（或其他类型的文档）中解析，提取每个单词，然后使用简单的单词列表创建文本文件，如下所示：阿法夫阿法斯达法 adfasfdasdf 广告 ... ETC 你会建议什么脚本语言和库？如果可能，请给出代码示例（特别是用于提取每个单词）。谢谢！

【问题讨论】：

你应该搜索一个叫做tokenizer的东西，它把你的单词序列分成可以传递给字典的token。网上有很多开源项目。在这里你可能会在 java 中找到一种算法：introcs.cs.princeton.edu/java/72regular/Tokenizer.java.html

标签： parsing text nlp tokenize

【解决方案1】：

您想要的不是解析器，而是分词器。这可以用任何语言用一堆正则表达式来完成，但我推荐 Python 和NLTK：

>>> from nltk.tokenize import word_tokenize
>>> word_tokenize('Hello, world!')
['Hello', ',', 'world', '!']

一般来说，几乎所有NLP 工具包都将包含一个标记器，因此无需重新发明轮子；标记化并不难，但它涉及编写大量启发式方法来处理所有异常，例如缩写词、首字母缩略词等。

【讨论】：

谢谢！我会这样挖
@user939536：如果它解决了您的问题，请不要忘记单击此答案旁边的复选标记。
好吧，真的很有帮助！我的熟人正在创建这个脚本，谢谢！