【问题标题】:How to make text file (or other documents') parser? [closed]如何制作文本文件(或其他文件)解析器? [关闭]
【发布时间】:2011-11-10 10:56:45
【问题描述】:

我有以下任务要做:填写拼写检查字典(简单的 txt 文件)我需要解析器 应该: - 在文本文件(或其他类型的文档)中解析,提取 每个单词,然后使用简单的单词列表创建文本文件,如下所示: 阿法夫 阿法斯达法 adfasfdasdf 广告 ... ETC 你会建议什么脚本语言和库?如果可能,请给出代码示例(特别是用于提取每个单词)。谢谢!

【问题讨论】:

标签: parsing text nlp tokenize


【解决方案1】:

您想要的不是解析器,而是分词器。这可以用任何语言用一堆正则表达式来完成,但我推荐 Python 和NLTK

>>> from nltk.tokenize import word_tokenize
>>> word_tokenize('Hello, world!')
['Hello', ',', 'world', '!']

一般来说,几乎所有NLP 工具包都将包含一个标记器,因此无需重新发明轮子;标记化并不难,但它涉及编写大量启发式方法来处理所有异常,例如缩写词、首字母缩略词等。

【讨论】:

  • 谢谢!我会这样挖
  • @user939536:如果它解决了您的问题,请不要忘记单击此答案旁边的复选标记。
  • 好吧,真的很有帮助!我的熟人正在创建这个脚本,谢谢!
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2018-06-18
  • 1970-01-01
相关资源
最近更新 更多