【发布时间】:2012-11-01 16:03:21
【问题描述】:
我打算做一个涉及 Hadoop 库的 MapReduce 项目,并在 AWS 上传的大数据上对其进行测试。我还没有最终确定一个想法。但我确信它会涉及某种数据处理、MapReduce 设计模式,可能还有图形算法、Hive 和 PigLatin。如果有人能给我一些想法,我将不胜感激。我的想法很少。
最后我必须处理一些大型数据集并获取一些信息并得出一些结论。为此,我之前使用 Weka 进行数据挖掘(使用树)。
但我不确定这是否是我现在唯一可以使用的东西(使用 Weka)。有没有其他方法可以处理大数据并得出关于大数据集的结论?
另外,我怎样才能让图表参与进来?
基本上我想做一个研究项目,但我不确定我到底应该做什么以及应该是什么样的?有什么想法吗 ?暗示性链接/想法?知识分享?
【问题讨论】:
-
这样的问题不适合堆栈溢出。另外,它以前被问过很多次,例如。 stackoverflow.com/questions/3953787/…stackoverflow.com/questions/4894396/…stackoverflow.com/questions/1375102/…
标签: hadoop parallel-processing mapreduce data-mining