【问题标题】:convert sequence file to vector将序列文件转换为矢量
【发布时间】:2013-03-06 09:59:13
【问题描述】:

我正在尝试实现朴素贝叶斯算法来对 mahout 中的推文和 facebook 数据进行情感分析。我在文本文件中有这些推文和 Facebook 数据。我正在使用命令将这些文件转换为序列文件

bin/mahout seqdirectory -i /user/hadoopUser/sample/input -o /user/hadoopUser/sample/seqoutput

然后我尝试将序列文件转换为向量,以便使用命令向 mahout 提供输入

bin/mahout seq2sparse -i /user/hadoopUser/sample/seqoutput -o /user/hadoopUser/vectoroutput -ow -a org.apache.lucene.analysis.WhitespaceAnalyzer -chunk 200 -wt tfidf -s 5 -md 3 -x 90 -ng 2 -ml 50 -seq

这是将整个文档转换为向量,但我想将每个句子转换为向量而不是整体,因为我不想对文档进行分类。我想对文档中的 cmets 进行分类。谁能帮我解决这个问题?

【问题讨论】:

    标签: mahout


    【解决方案1】:

    您应该拥有一个包含推文数据的 CSV 文件,对吧?我正在处理这个完全相同的问题。我做了什么(我不确定它是否有效,因为我什至不知道如何解释聚类输出,它只是一堆数字和单词)我使用 Mahout 的 SequenceWriter 将 CSV 文件的每一列写入序列文件班级。然后在该序列文件上正常使用 seq2sparse 。

    【讨论】:

      【解决方案2】:

      我不是 100% 确定,但主要问题是 mahout 将此文件视为一个键/值。 您需要为每一行添加额外的 id,例如 md5 哈希。 所以 CSV 格式将是:

      positive    bf9373d6d85959ec755eb8ac5ba0ae77    This movie is a real masterpiece
      

      【讨论】:

        猜你喜欢
        • 2019-01-01
        • 2012-08-07
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2013-06-07
        • 1970-01-01
        • 2019-12-27
        相关资源
        最近更新 更多