性能差异 map() 与 withColumn()答案

【问题标题】：Performance difference map() vs withColumn()性能差异 map() 与 withColumn()
【发布时间】：2021-02-03 20:08:54
【问题描述】：

我有一个超过 100 列的表格。我需要从某些列中删除双引号。我找到了两种方法，使用 withColumn() 和 map()

使用 withColumn()

cols_to_fix = ["col1", ..., "col20"]
for col in cols_to_fix:
    df = df.withColumn(col, regexp_replace(df[col], "\"", ""))

使用 map()

def remove_quotes(row: Row) -> Row:
    row_as_dict = row.asDict()
    cols_to_fix = ["col1", ..., "col20"]
    for column in cols_to_fix:
        if row_as_dict[column]:
            row_as_dict[column] = re.sub("\"", "", str(row_as_dict[column]))
    return Row(**row_as_dict)
 
df = df.rdd.map(remove_quotes).toDF(df.schema)

这是我的问题。我发现在有 ~25M 记录的表上使用 map() 比 withColumn() 花费大约 4 倍的时间。如果任何堆栈溢出用户能够解释性能差异的原因，我将非常感激，这样我以后就可以避免类似的陷阱。

【问题讨论】：

你可以从这里开始：spark dataframe conversion to rdd takes a long time

标签： performance dataframe pyspark rdd

【解决方案1】：

首先，一条建议：不要将DataFrame转换为RDD，只需df.map(your function here)，这样可以节省很多时间。下一页 https://dzone.com/articles/apache-spark-3-reasons-why-you-should-not-use-rdds 会为我们节省很多时间，其主要结论是 RDD 比 DataFrame/Dataset 慢得多，更不用说从 DataFrame 到 RDD 的转换所用的时间了。

我们现在谈谈map和withColumn，DataFrame和RDD之间没有任何转换。

首先得出结论：map 通常比 withColumn 慢 5 倍。原因是 map 操作总是涉及反序列化和序列化，而 withColumn 可以对感兴趣的列进行操作。具体来说，map 操作应该将 Row 反序列化为操作将携带的几个部分，

这里有一个例子：假设我们有一个看起来像

的DataFrame

+--------+-----------+
|language|users_count|
+--------+-----------+
|    Java|      20000|
|  Python|     100000|
|   Scala|       3000|
+--------+-----------+

然后我们想将列 users_count 中的所有值加 1，我们可以这样做：

df.map(row => {
  val usersCount = row.getInt(1) + 1
  (row.getString(0), usersCount)
}).toDF("language", "users_count_incremented_by_1")

在上面的代码中，我们首先需要对每一行进行反序列化以提取第二列中的值，然后将修改后的值输出并保存为DataFrame（此步骤需要将（a，b）序列化为Row (a, b) 因为 DataFrame 只不过是一个 DataSet of Rows）。有关更详细的解释，请查看以下优秀文章 https://medium.com/@fqaiser94/udfs-vs-map-vs-custom-spark-native-functions-91ab2c154b44

map不能对列本身进行操作，但必须对列的值进行操作，获取值需要反序列化，保存为DataFrame需要序列化。

但是 map 仍然很有用：借助 map 方法，人们可以实现非常复杂的操作，而如果我们只使用 withColumn 就可以完成内置操作。

综上所述，map 更慢但更灵活，withColumn 肯定是最高效的，但它的功能有限。

【讨论】：