【问题标题】:Dataframe level computation in pySparkpySpark 中的数据框级计算
【发布时间】:2021-03-24 09:25:18
【问题描述】:

我正在使用 PySpark,并希望利用多节点的优势来提高性能时间。

例如:

假设我有 3 列和 100 万条记录:

Emp ID | Salary | % Increase | New Salary 
1 | 200 | 0.05 | 
2 | 500 | 0.15 | 
3 | 300 | 0.25 | 
4 | 700 | 0.1 |

我想计算 New Salary 列,并想利用 pyspark 中多个节点的强大功能来减少整体处理时间。

我不想对 New Salary 进行迭代的逐行计算。

df.withColumn 是否在数据帧级别进行计算?使用更多节点是否能够提供更好的性能?

【问题讨论】:

    标签: pyspark pyspark-dataframes


    【解决方案1】:

    Spark 的数据帧基本上是一个分布式数据集合。 Spark manages 这个分布和它们上面的operations(比如.withColumn)。

    Here 是一个关于如何提高 spark 性能的快速谷歌搜索。

    【讨论】:

      猜你喜欢
      • 2017-03-24
      • 1970-01-01
      • 2017-10-13
      • 2022-01-15
      • 2017-01-27
      • 1970-01-01
      • 1970-01-01
      • 2017-07-16
      • 2019-03-04
      相关资源
      最近更新 更多