【发布时间】:2021-03-24 09:25:18
【问题描述】:
我正在使用 PySpark,并希望利用多节点的优势来提高性能时间。
例如:
假设我有 3 列和 100 万条记录:
Emp ID | Salary | % Increase | New Salary
1 | 200 | 0.05 |
2 | 500 | 0.15 |
3 | 300 | 0.25 |
4 | 700 | 0.1 |
我想计算 New Salary 列,并想利用 pyspark 中多个节点的强大功能来减少整体处理时间。
我不想对 New Salary 进行迭代的逐行计算。
df.withColumn 是否在数据帧级别进行计算?使用更多节点是否能够提供更好的性能?
【问题讨论】:
标签: pyspark pyspark-dataframes