【发布时间】:2020-05-31 22:15:13
【问题描述】:
在哪种情况下我们应该更喜欢 spark RDD 来编写解决方案,在哪种情况下我们应该选择使用 spark-sql。我知道 spark-sql 提供更好的性能,并且它最适合结构和半结构数据。但是在 spark Rdd 和 spark-sql 之间选择时,我们还需要考虑哪些其他因素。
【问题讨论】:
-
有很多可以使用 RDD 解决的用例可以使用具有更高性能和可靠性的 Dataframe/dataset api 来解决。我认为,大多数
mllibapi 仍然使用 RDD 作为一等公民,并不是所有的都有基于Dataset的实现,在这种情况下你可以使用 RDD。此外,如果您想要使用 Dataframe 难以实现的更精细级别的处理,您可以使用 RDD。总的来说,尽可能使用 Dataframe/dataset api
标签: apache-spark pyspark apache-spark-sql rdd