【发布时间】:2011-12-04 07:29:56
【问题描述】:
我有一个文档语料库,我想将每个文档表示为一个向量。基本上,对于文档中存在的单词,向量将具有 1,而对于其他单词(存在于语料库中的其他文档中而不是在此特定文档中),它将具有 0。我如何为所有人创建这个向量Weka 中的文件?
有没有使用 Weka 的快速方法?我还希望 Weka 在创建此向量之前删除停用词和一些预处理。
谢谢 阿布舍克S
【问题讨论】:
我有一个文档语料库,我想将每个文档表示为一个向量。基本上,对于文档中存在的单词,向量将具有 1,而对于其他单词(存在于语料库中的其他文档中而不是在此特定文档中),它将具有 0。我如何为所有人创建这个向量Weka 中的文件?
有没有使用 Weka 的快速方法?我还希望 Weka 在创建此向量之前删除停用词和一些预处理。
谢谢 阿布舍克S
【问题讨论】:
您想要StringToWordVector 过滤器。
它具有二进制出现和停止的选项,以及许多其他选项,例如词干提取、截断单词列表、丢弃不常用的术语、大小写折叠。
【讨论】: