如何在 python 中操作 spark 数据框？ [复制]

【问题标题】：How to manipulate spark dataframe in python? [duplicate]如何在 python 中操作 spark 数据框？ [复制]
【发布时间】：2021-11-07 09:07:11
【问题描述】：

有很多重复的 spark_df 如下：

Name       Cost
Alicja     5
Alicja     10
Alicja     7
Piotr      2
Piotr      8
Jon        5

现在我想将这个 spark_df 转换如下：

Name       min_Cost  max _cost
Alicja     5            10
Piotr      2            8
Jon        5            5

我在熊猫中知道这一点。但我正在尝试学习火花，以便将其实施到大数据中。如果有人可以提供帮助，那就太好了。

【问题讨论】：

标签： python-3.x dataframe apache-spark pyspark apache-spark-sql

【解决方案1】：

将每个Name 与groupby 的min 和max 聚合起来：

import pyspark.sql.functions as f

df.groupby('Name').agg(
  f.min('Cost').alias('min_cost'), 
  f.max('Cost').alias('max_cost')
).show()
+------+--------+--------+
|  Name|min_cost|max_cost|
+------+--------+--------+
| Piotr|       2|       8|
|Alicja|       5|      10|
|   Jon|       5|       5|
+------+--------+--------+

【讨论】：