【问题标题】:MapReduce to SparkMapReduce 到 Spark
【发布时间】:2015-03-06 21:56:45
【问题描述】:

我有一个用 Java 编写的 MapReduce 作业。它取决于多个类。我想在 Spark 上运行 MapReduce 作业。

我应该遵循哪些步骤来做同样的事情?

我只需要对 MapReduce 类进行更改吗?

谢谢!

【问题讨论】:

  • 首先阅读这篇博文:blog.cloudera.com/blog/2014/09/…
  • 谢谢@JeremyBeard。那是我开始写这篇文章时读到的第一篇文章。我更新了我的问题。任何帮助将不胜感激。

标签: java hadoop mapreduce apache-spark


【解决方案1】:

这是一个非常广泛的问题,但简短的是:

  1. 创建输入数据的 RDD。
  2. 使用您的映射器代码致电map。输出键值对。
  3. 使用您的减速器代码致电reduceByKey
  4. 将生成的 RDD 写入磁盘。

Spark 比 MapReduce 更灵活:您可以在第 1 步和第 4 步之间使用多种方法来转换数据。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2017-12-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-08-06
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多