如何在 Eclipse 中将 mahout 与 hadoop 一起使用？答案

【问题标题】：How could I use mahout with hadoop in Eclipse?如何在 Eclipse 中将 mahout 与 hadoop 一起使用？
【发布时间】：2014-06-30 06:35:53
【问题描述】：

我想用 eclipse 用 mahout-0.9 和 hadoop-2.2.0 开发我的项目。

我可以使用 mahout-0.9 成功运行我的代码。但我面临的问题是如何使用 hadoop mod 运行我的项目？我想我必须在我的电脑上安装 hadoop，并使用命令来启动它。然后我可以使用 hadoop mod 在 eclipse 中运行我的项目。

由于 Mahout 可以使用MAHOUT_LOCAL 来确定 linux 中的本地 mod 或 hadoop mod。但是当我将环境变量MAHOUT_LOCAL设置为“”时，它也使用了本地mod，为什么？

如果无法在 Eclipse 中使用 hadoop 运行 mahout，我该如何运行我的项目？谢谢：）

我的示例代码

package com.predictionmarketing.itemrecommend;

import java.io.File;
import java.io.IOException;
import java.util.List;

import org.apache.mahout.cf.taste.common.TasteException;
import org.apache.mahout.cf.taste.impl.model.file.FileDataModel;
import org.apache.mahout.cf.taste.impl.recommender.GenericItemBasedRecommender;
import org.apache.mahout.cf.taste.impl.similarity.PearsonCorrelationSimilarity;
import org.apache.mahout.cf.taste.impl.similarity.UncenteredCosineSimilarity;
import org.apache.mahout.cf.taste.model.DataModel;
import org.apache.mahout.cf.taste.recommender.RecommendedItem;
import org.apache.mahout.cf.taste.recommender.Recommender;
import org.apache.mahout.cf.taste.similarity.ItemSimilarity;

public class ItemRecommend {

    public static void main(String[] args) {
        try {
             DataModel model = new FileDataModel(new File("data/test.txt")); 
             ItemSimilarity similarity = new UncenteredCosineSimilarity(model); 
             Recommender recommender = new GenericItemBasedRecommender(model, similarity);

             List<RecommendedItem> recommendations = recommender.recommend(2, 10);
             for(RecommendedItem recommendation : recommendations) {
                 System.out.println(recommendation.getItemID() + "," + recommendation.getValue());
             }
        } catch (IOException e) {
            System.out.println("There was an error.");
            e.printStackTrace();
        } catch (TasteException e) {
            System.out.println("There was a Taste Exception");
            e.printStackTrace();
        }
    }
}

【问题讨论】：

您的代码不涉及任何 Hadoop 类调用。每个示例：'new File("data/test.txt")' 正在读取本地文件而不是 HDFS
我如何从 HDFS 读取数据？谢谢
这里的答案可能有点长，建议你看看this。

标签： hadoop mahout mahout-recommender

【解决方案1】：

您的示例不是 Hadoop 代码。 Mahout 推荐器有非 Hadoop“内存”版本，如您在示例中使用的那样，以及 Hadoop 版本。 Hadoop 版本有一个非常不同的 API，因为它计算所有用户的所有建议并将这些建议放在 HDFS 文件中。您可以在作为 Hadoop 客户端（知道如何与 Hadoop 集群通信）的机器上从命令行运行 Hadoop 版本。通过输入mahout recommenditembased 进行访问，它将打印一个帮助屏幕。

在集群上运行 hadoop 作业后，您需要编写代码从这些文件中查找特定用户的记录。

这通常通过编写代码将推荐存储在数据库中并使用查询在运行时检索推荐来完成。

【讨论】：

感谢您的建议！这很有帮助！你能告诉如何获取存储在 hdfs 中的文件吗？我认为它可能是存储在我的计算机中的文本文件，如果我想得到结果，我该怎么做？谢谢！
它们将在 HDFS 序列文件中。每行的“键”将是 mahout 用户 ID（一个整数），值将是我记得的 RecommendedItems，因此该值是带有权重的推荐项目列表。运行mahout seqdumper -i one-of-the-part-files | more 可以看到数据以及 Key 和 Value 的类名是什么。