【问题标题】:How can i add stopwords to MeCab?如何向 MeCab 添加停用词?
【发布时间】:2012-10-15 11:33:24
【问题描述】:

我想向 MeCab 添加停用词,例如“我”、“你”或其他词。 但我在 MeCab 的手册上找不到任何停用词的信息。

【问题讨论】:

  • 停用词是什么意思? Mecab 是一个分词器和词性标注器,而不是文档分类器或信息检索引擎。您希望它对停用词做什么?或者这是关于向用户字典添加条目?
  • 停用词是在文本处理过程中要转义的过滤词。注入/使用停用词的方式因您的任务而异。你的任务是什么,停用词的目的是什么?
  • 这个问题你解决了吗?我认为我面临同样的问题。如果您已经解决了这个问题,您能否在下面添加解决方案?

标签: nlp stop-words mecab


【解决方案1】:

MeCab 是一个词性标注器,它不会删除停用词。

您需要自己删除停用词,方法是处理输出并查看表面形式(文字标记)、基本形式(词形还原的规范形式)或词性。

【讨论】:

    【解决方案2】:

    我认为您不必在 MeCab 中添加停用词。 在 mecab 将标记化数据传递给您后,您可以通过模式匹配(在 python 的情况下为 x.replace("stopword", ""))或使用 POS 标签(删除带有特定标签的术语)来删除停用词。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-07-24
      • 2020-02-27
      • 2021-11-13
      • 1970-01-01
      • 2020-09-07
      • 2019-05-28
      • 1970-01-01
      • 2014-02-03
      相关资源
      最近更新 更多