【问题标题】:How is AWS for Data mining for school project?AWS 用于学校项目的数据挖掘如何?
【发布时间】:2010-10-27 11:11:32
【问题描述】:

我必须为数据挖掘主题做一个课堂项目。我的主题将是挖掘 stackoverflow 的数据以获取热门主题。

所以,我从here 下载了数据,但数据集太大(posts.xml 大小为 3gb),我无法在我的机器上处理它。

那么,您的建议是,使用 AWS 进行数据处理是一个好选择还是不值得?

我之前没有使用 AWS 的经验,那么 AWS 如何帮助我完成我的学校项目?你会怎么做呢?

更新 1

所以,我的数据处理将分三个阶段:

  1. 将 XML(从 so.com 转储)转换为 .ARFF(用于 weka jar),
  2. 在 weka 中使用算法挖掘数据,
  3. 将输出转换为 GraphML 格式,由 prefuse 库读取以进行可视化。

那么,AWS 在哪里适合?我支持 AWS 中有两个功能可以帮助我:

  1. EC2 和
  2. 弹性 MapReduce,
    但我不确定 mapreduce 是如何工作的,以及如何在我的项目中使用它。我可以吗?

【问题讨论】:

    标签: java dataset amazon-ec2


    【解决方案1】:

    您可以将 EC2(您将用于进行实际计算的 AWS 部分)视为以编程方式或通过简单的 Web 界面租用计算机的一种方式。如果您需要大量机器并且打算在短时间内使用它们,那么 AWS 可能对您有好处。然而,没有灵丹妙药。您仍然需要选择正确的软件来安装它们,在 EBS 卷或 S3 中加载数据以及所有其他无聊的细节。

    另外请注意,EC2 实例和存储相对昂贵。如果您实际拥有机器/磁盘并使用了 3 年,请准备好支付 5-10 倍的费用。

    关于您的问题,我真诚地怀疑现代计算机无法处理 3 GB 的 xml 文件。事实上,我只是在我的工作站上的 SOLR 中索引了所有堆栈溢出的posts.xml,一切都很顺利。您是否使用类似 SAX 的解析器?如果没有,那将比所有云服务加起来更能帮助您。

    【讨论】:

    • 关闭后是否所有数据和应用程序都会从​​ EC2 中删除?
    • 不一定。如果您在 EBS 上有一个带有根文件系统的实例,则该文件系统将在实例关闭后保留。如果您在其上设置了正确的标志(需要检查文档以获取名称),则文件系统在实例终止后仍然存在。
    • 显然,即使实例未运行,您也需要为存储在 EBS 卷上的任何数据每 GB 月付费。
    【解决方案2】:

    听起来像是一个有趣的项目,或者至少是接触新技术的好借口——我希望我上学的时候能有这样的东西。

    在大多数情况下,AWS 为您提供准系统服务器,因此显而易见的问题是,您是否已决定要如何处理数据?例如。 -- 你只是想在 .xml 上运行一个 shell 脚本还是想使用 hadoop 等?

    AWS 的美妙之处在于您可以按需获得所需的所有容量。例如,在您的情况下,您可能不需要多个实例,只需要一个强大的实例。如果您只需要几个小时的服务器,您不必为整个月甚至一周的根服务器付费。

    如果您让我们了解更多有关您希望如何处理数据的信息,也许我们可以提供更多帮助。

    【讨论】:

      猜你喜欢
      • 2014-03-17
      • 2012-11-01
      • 2012-11-14
      • 2012-12-30
      • 1970-01-01
      • 2014-01-25
      • 2018-05-07
      • 2011-02-07
      • 2014-05-18
      相关资源
      最近更新 更多