【发布时间】:2019-02-01 16:47:06
【问题描述】:
我必须将使用 Spark 1.6 以 Scala 2.10.4 编写的应用程序迁移到 Spark 2.1。
该应用程序处理大小约为 7GB 的文本文件,并包含多个 rdd 转换。
有人告诉我尝试使用 scala 2.11 重新编译它,这应该足以使其与 Spark 2.1 一起使用。这对我来说听起来很奇怪,因为我知道在 Spark 2 中有一些相关的变化,比如:
- SparkSession对象介绍
- DataSet 和 DataFrame 的合并 API
我设法用 scala 2.11 重新编译了 spark 2 中的应用程序,由于 Kryo Serializer 注册,只有微小的变化。 我仍然有一些运行时错误要解决,我正在尝试弄清楚接下来会发生什么。
我的问题是,为了使应用程序像以前一样工作,哪些更改是“必要的”,在性能优化方面“推荐”哪些更改(我需要保持至少相同水平的性能),以及任何您认为这可能对 spark 的新手有用:)。
提前致谢!
【问题讨论】:
标签: scala apache-spark