将序列文件转换为矢量答案

【问题标题】：convert sequence file to vector将序列文件转换为矢量
【发布时间】：2013-03-06 09:59:13
【问题描述】：

我正在尝试实现朴素贝叶斯算法来对 mahout 中的推文和 facebook 数据进行情感分析。我在文本文件中有这些推文和 Facebook 数据。我正在使用命令将这些文件转换为序列文件

bin/mahout seqdirectory -i /user/hadoopUser/sample/input -o /user/hadoopUser/sample/seqoutput

然后我尝试将序列文件转换为向量，以便使用命令向 mahout 提供输入

bin/mahout seq2sparse -i /user/hadoopUser/sample/seqoutput -o /user/hadoopUser/vectoroutput -ow -a org.apache.lucene.analysis.WhitespaceAnalyzer -chunk 200 -wt tfidf -s 5 -md 3 -x 90 -ng 2 -ml 50 -seq

这是将整个文档转换为向量，但我想将每个句子转换为向量而不是整体，因为我不想对文档进行分类。我想对文档中的 cmets 进行分类。谁能帮我解决这个问题？

【问题讨论】：

标签： mahout

【解决方案1】：

您应该拥有一个包含推文数据的 CSV 文件，对吧？我正在处理这个完全相同的问题。我做了什么（我不确定它是否有效，因为我什至不知道如何解释聚类输出，它只是一堆数字和单词）我使用 Mahout 的 SequenceWriter 将 CSV 文件的每一列写入序列文件班级。然后在该序列文件上正常使用 seq2sparse 。

【讨论】：

【解决方案2】：

我不是 100% 确定，但主要问题是 mahout 将此文件视为一个键/值。您需要为每一行添加额外的 id，例如 md5 哈希。所以 CSV 格式将是：

positive    bf9373d6d85959ec755eb8ac5ba0ae77    This movie is a real masterpiece

【讨论】：