【问题标题】:How to manipulate spark dataframe in python? [duplicate]如何在 python 中操作 spark 数据框? [复制]
【发布时间】:2021-11-07 09:07:11
【问题描述】:

有很多重复的 spark_df 如下:

Name       Cost
Alicja     5
Alicja     10
Alicja     7
Piotr      2
Piotr      8
Jon        5

现在我想将这个 spark_df 转换如下:

Name       min_Cost  max _cost
Alicja     5            10
Piotr      2            8
Jon        5            5

我在熊猫中知道这一点。但我正在尝试学习火花,以便将其实施到大数据中。如果有人可以提供帮助,那就太好了。

【问题讨论】:

    标签: python-3.x dataframe apache-spark pyspark apache-spark-sql


    【解决方案1】:

    将每个Namegroupbyminmax 聚合起来:

    import pyspark.sql.functions as f
    
    df.groupby('Name').agg(
      f.min('Cost').alias('min_cost'), 
      f.max('Cost').alias('max_cost')
    ).show()
    +------+--------+--------+
    |  Name|min_cost|max_cost|
    +------+--------+--------+
    | Piotr|       2|       8|
    |Alicja|       5|      10|
    |   Jon|       5|       5|
    +------+--------+--------+
    

    【讨论】:

      猜你喜欢
      • 2021-12-22
      • 1970-01-01
      • 2019-02-08
      • 1970-01-01
      • 1970-01-01
      • 2021-11-24
      • 2020-12-07
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多