【问题标题】:How to create a bag of words using Weka?如何使用 Weka 创建一个词袋?
【发布时间】:2011-12-04 07:29:56
【问题描述】:

我有一个文档语料库,我想将每个文档表示为一个向量。基本上,对于文档中存在的单词,向量将具有 1,而对于其他单词(存在于语料库中的其他文档中而不是在此特定文档中),它将具有 0。我如何为所有人创建这个向量Weka 中的文件?

有没有使用 Weka 的快速方法?我还希望 Weka 在创建此向量之前删除停用词和一些预处理。

谢谢 阿布舍克S

【问题讨论】:

    标签: nlp weka


    【解决方案1】:

    您想要StringToWordVector 过滤器。

    它具有二进制出现和停止的选项,以及许多其他选项,例如词干提取、截断单词列表、丢弃不常用的术语、大小写折叠。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-03-03
      • 2018-12-01
      • 1970-01-01
      • 1970-01-01
      • 2019-09-16
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多