【问题标题】:MapReduce project with data mining带有数据挖掘的 MapReduce 项目
【发布时间】:2012-11-01 16:03:21
【问题描述】:

我打算做一个涉及 Hadoop 库的 MapReduce 项目,并在 AWS 上传的大数据上对其进行测试。我还没有最终确定一个想法。但我确信它会涉及某种数据处理、MapReduce 设计模式,可能还有图形算法、Hive 和 PigLatin。如果有人能给我一些想法,我将不胜感激。我的想法很少。

最后我必须处理一些大型数据集并获取一些信息并得出一些结论。为此,我之前使用 Weka 进行数据挖掘(使用树)。

但我不确定这是否是我现在唯一可以使用的东西(使用 Weka)。有没有其他方法可以处理大数据并得出关于大数据集的结论?

另外,我怎样才能让图表参与进来?

基本上我想做一个研究项目,但我不确定我到底应该做什么以及应该是什么样的?有什么想法吗 ?暗示性链接/想法?知识分享?

【问题讨论】:

标签: hadoop parallel-processing mapreduce data-mining


【解决方案1】:

由于您已经在使用 MapRedude 和 Hadoop,您可以使用 Mahout 从您的数据中提取一些知识,或者您可以从这本非常好的书中获得一些想法:

http://infolab.stanford.edu/~ullman/mmds.html

这本书提供了挖掘社交网络图的想法,并以其他几种方式处理图。

希望对你有帮助!

【讨论】:

    【解决方案2】:

    我建议您查看Apache Mahout,它是一个可扩展的机器学习和数据挖掘框架,应该与 Hadoop 很好地集成。

    Hive 为您提供类似 SQL 的语言来查询大数据,本质上它将您的高级查询转换为 MapReduce 作业并在数据集群上运行。

    另一个建议是考虑使用R做你的数据处理算法,它是一个统计软件(类似于matlab),我建议使用R Revolution来代替标准的R环境,这是一个开发环境R,但具有非常强大的大数据和集群工具。

    编辑:如果您是学生,R Revolution 有一个免费的学术版。

    编辑:第三个建议是查看GridGain,它是Java 中另一个相对容易在集群上运行的Map/Reduce 实现。

    【讨论】:

      猜你喜欢
      • 2014-03-17
      • 2014-01-25
      • 2018-05-07
      • 2011-02-07
      • 2014-05-18
      • 1970-01-01
      • 1970-01-01
      • 2019-04-24
      • 2011-07-28
      相关资源
      最近更新 更多