【发布时间】:2010-10-27 11:11:32
【问题描述】:
我必须为数据挖掘主题做一个课堂项目。我的主题将是挖掘 stackoverflow 的数据以获取热门主题。
所以,我从here 下载了数据,但数据集太大(posts.xml 大小为 3gb),我无法在我的机器上处理它。
那么,您的建议是,使用 AWS 进行数据处理是一个好选择还是不值得?
我之前没有使用 AWS 的经验,那么 AWS 如何帮助我完成我的学校项目?你会怎么做呢?
更新 1
所以,我的数据处理将分三个阶段:
- 将 XML(从 so.com 转储)转换为 .ARFF(用于 weka jar),
- 在 weka 中使用算法挖掘数据,
- 将输出转换为 GraphML 格式,由 prefuse 库读取以进行可视化。
那么,AWS 在哪里适合?我支持 AWS 中有两个功能可以帮助我:
- EC2 和
- 弹性 MapReduce,
但我不确定 mapreduce 是如何工作的,以及如何在我的项目中使用它。我可以吗?
【问题讨论】:
标签: java dataset amazon-ec2