带有数据挖掘的 MapReduce 项目

【问题标题】：MapReduce project with data mining带有数据挖掘的 MapReduce 项目
【发布时间】：2012-11-01 16:03:21
【问题描述】：

我打算做一个涉及 Hadoop 库的 MapReduce 项目，并在 AWS 上传的大数据上对其进行测试。我还没有最终确定一个想法。但我确信它会涉及某种数据处理、MapReduce 设计模式，可能还有图形算法、Hive 和 PigLatin。如果有人能给我一些想法，我将不胜感激。我的想法很少。

最后我必须处理一些大型数据集并获取一些信息并得出一些结论。为此，我之前使用 Weka 进行数据挖掘（使用树）。

但我不确定这是否是我现在唯一可以使用的东西（使用 Weka）。有没有其他方法可以处理大数据并得出关于大数据集的结论？

另外，我怎样才能让图表参与进来？

基本上我想做一个研究项目，但我不确定我到底应该做什么以及应该是什么样的？有什么想法吗？暗示性链接/想法？知识分享？

【问题讨论】：

这样的问题不适合堆栈溢出。另外，它以前被问过很多次，例如。 stackoverflow.com/questions/3953787/…stackoverflow.com/questions/4894396/…stackoverflow.com/questions/1375102/…

标签： hadoop parallel-processing mapreduce data-mining

【解决方案1】：

由于您已经在使用 MapRedude 和 Hadoop，您可以使用 Mahout 从您的数据中提取一些知识，或者您可以从这本非常好的书中获得一些想法：

http://infolab.stanford.edu/~ullman/mmds.html

这本书提供了挖掘社交网络图的想法，并以其他几种方式处理图。

希望对你有帮助！

【讨论】：

【解决方案2】：

我建议您查看Apache Mahout，它是一个可扩展的机器学习和数据挖掘框架，应该与 Hadoop 很好地集成。

Hive 为您提供类似 SQL 的语言来查询大数据，本质上它将您的高级查询转换为 MapReduce 作业并在数据集群上运行。

另一个建议是考虑使用R做你的数据处理算法，它是一个统计软件（类似于matlab），我建议使用R Revolution来代替标准的R环境，这是一个开发环境R，但具有非常强大的大数据和集群工具。

编辑：如果您是学生，R Revolution 有一个免费的学术版。

编辑：第三个建议是查看GridGain，它是Java 中另一个相对容易在集群上运行的Map/Reduce 实现。

【讨论】：

猜你喜欢

2014-03-17
2014-01-25
2018-05-07
2011-02-07
2014-05-18
1970-01-01
1970-01-01
2019-04-24
2011-07-28

相关资源

下载 2023-02-24
下载 2022-12-23
下载 2022-12-27
下载 2021-06-24

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode