【发布时间】:2016-12-16 02:15:29
【问题描述】:
(Scala 特有的问题。)
虽然 Spark 文档鼓励在可能的情况下使用 DataFrame API,但如果 DataFrame API 不足,通常需要选择回退到 RDD API 或使用 UDF。这两种替代方案之间是否存在固有的性能差异?
RDD 和 UDF 的相似之处在于它们都不能从 Catalyst 和 Tungsten 优化中受益。是否有任何其他开销,如果有,这两种方法之间是否存在差异?
举一个具体的例子,假设我有一个 DataFrame,其中包含一列具有自定义格式的文本数据(不适合正则表达式匹配)。我需要解析该列并添加一个包含结果标记的新向量列。
【问题讨论】:
标签: scala performance apache-spark apache-spark-sql rdd