AWS 用于学校项目的数据挖掘如何？答案

【问题标题】：How is AWS for Data mining for school project?AWS 用于学校项目的数据挖掘如何？
【发布时间】：2010-10-27 11:11:32
【问题描述】：

我必须为数据挖掘主题做一个课堂项目。我的主题将是挖掘 stackoverflow 的数据以获取热门主题。

所以，我从here 下载了数据，但数据集太大（posts.xml 大小为 3gb），我无法在我的机器上处理它。

那么，您的建议是，使用 AWS 进行数据处理是一个好选择还是不值得？

我之前没有使用 AWS 的经验，那么 AWS 如何帮助我完成我的学校项目？你会怎么做呢？

更新 1

所以，我的数据处理将分三个阶段：

将 XML（从 so.com 转储）转换为 .ARFF（用于 weka jar），
在 weka 中使用算法挖掘数据，
将输出转换为 GraphML 格式，由 prefuse 库读取以进行可视化。

那么，AWS 在哪里适合？我支持 AWS 中有两个功能可以帮助我：

EC2 和
弹性 MapReduce，
但我不确定 mapreduce 是如何工作的，以及如何在我的项目中使用它。我可以吗？

【问题讨论】：

标签： java dataset amazon-ec2

【解决方案1】：

您可以将 EC2（您将用于进行实际计算的 AWS 部分）视为以编程方式或通过简单的 Web 界面租用计算机的一种方式。如果您需要大量机器并且打算在短时间内使用它们，那么 AWS 可能对您有好处。然而，没有灵丹妙药。您仍然需要选择正确的软件来安装它们，在 EBS 卷或 S3 中加载数据以及所有其他无聊的细节。

另外请注意，EC2 实例和存储相对昂贵。如果您实际拥有机器/磁盘并使用了 3 年，请准备好支付 5-10 倍的费用。

关于您的问题，我真诚地怀疑现代计算机无法处理 3 GB 的 xml 文件。事实上，我只是在我的工作站上的 SOLR 中索引了所有堆栈溢出的posts.xml，一切都很顺利。您是否使用类似 SAX 的解析器？如果没有，那将比所有云服务加起来更能帮助您。

【讨论】：

关闭后是否所有数据和应用程序都会从 EC2 中删除？
不一定。如果您在 EBS 上有一个带有根文件系统的实例，则该文件系统将在实例关闭后保留。如果您在其上设置了正确的标志（需要检查文档以获取名称），则文件系统在实例终止后仍然存在。
显然，即使实例未运行，您也需要为存储在 EBS 卷上的任何数据每 GB 月付费。

【解决方案2】：

听起来像是一个有趣的项目，或者至少是接触新技术的好借口——我希望我上学的时候能有这样的东西。

在大多数情况下，AWS 为您提供准系统服务器，因此显而易见的问题是，您是否已决定要如何处理数据？例如。 -- 你只是想在 .xml 上运行一个 shell 脚本还是想使用 hadoop 等？

AWS 的美妙之处在于您可以按需获得所需的所有容量。例如，在您的情况下，您可能不需要多个实例，只需要一个强大的实例。如果您只需要几个小时的服务器，您不必为整个月甚至一周的根服务器付费。

如果您让我们了解更多有关您希望如何处理数据的信息，也许我们可以提供更多帮助。

【讨论】：