pySpark 中的数据框级计算答案

【问题标题】：Dataframe level computation in pySparkpySpark 中的数据框级计算
【发布时间】：2021-03-24 09:25:18
【问题描述】：

我正在使用 PySpark，并希望利用多节点的优势来提高性能时间。

例如：

假设我有 3 列和 100 万条记录：

Emp ID | Salary | % Increase | New Salary 
1 | 200 | 0.05 | 
2 | 500 | 0.15 | 
3 | 300 | 0.25 | 
4 | 700 | 0.1 |

我想计算 New Salary 列，并想利用 pyspark 中多个节点的强大功能来减少整体处理时间。

我不想对 New Salary 进行迭代的逐行计算。

df.withColumn 是否在数据帧级别进行计算？使用更多节点是否能够提供更好的性能？

【问题讨论】：

【解决方案1】：

Spark 的数据帧基本上是一个分布式数据集合。 Spark manages 这个分布和它们上面的operations（比如.withColumn）。

Here 是一个关于如何提高 spark 性能的快速谷歌搜索。

【讨论】：