【问题标题】:Calculating percentage of total count for groupBy using pyspark使用pyspark计算组总数的百分比
【发布时间】:2021-10-03 12:10:02
【问题描述】:

我在 pyspark 中有以下代码,生成的表格显示了列的不同值及其计数。我想要另一列显示每行代表的总计数的百分比。我该怎么做?

difrgns = (df1
           .groupBy("column_name")
           .count()
           .sort(desc("count"))
           .show())

提前致谢!

【问题讨论】:

  • 最近有一个自我回答的问题应该适合你here

标签: apache-spark pyspark


【解决方案1】:

如果对 Windowing 不满意,作为替代示例,正如评论所暗示的那样,这是更好的选择:

# Running in Databricks, not all stuff required
from pyspark.sql import Row
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
from pyspark.sql.types import *
#from pyspark.sql.functions import col

data = [("A", "X", 2, 100), ("A", "X", 7, 100), ("B", "X", 10, 100),
        ("C", "X", 1, 100), ("D", "X", 50, 100), ("E", "X", 30, 100)]
rdd = sc.parallelize(data)

someschema = rdd.map(lambda x: Row(c1=x[0], c2=x[1], val1=int(x[2]), val2=int(x[3])))

df = sqlContext.createDataFrame(someschema)

tot = df.count()

df.groupBy("c1") \
  .count() \
  .withColumnRenamed('count', 'cnt_per_group') \
  .withColumn('perc_of_count_total', (F.col('cnt_per_group') / tot) * 100 ) \
  .show()

返回:

 +---+-------------+-------------------+
| c1|cnt_per_group|perc_of_count_total|
+---+-------------+-------------------+
|  E|            1| 16.666666666666664|
|  B|            1| 16.666666666666664|
|  D|            1| 16.666666666666664|
|  C|            1| 16.666666666666664|
|  A|            2|  33.33333333333333|
+---+-------------+-------------------+

我专注于 Scala,它似乎更容易。也就是说,通过 cmets 建议的解决方案使用 Window,这就是我在 Scala 中使用 over() 所做的。

【讨论】:

  • 我认为你需要先广播你的tot变量。
  • 据我在实践中看到的,可以但不是强制性的。错误会被记录下来。
【解决方案2】:

df 本身是一个更复杂的转换链并且运行两次(首先计算总计数,然后分组和计算百分比)成本太高时,可以利用窗口函数来获得类似的结果.下面是一个更通用的代码(扩展 bluephantomanswer),可用于多个分组维度:

from pyspark.sql import Row
from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *
from pyspark.sql.window import Window

data = [("A", "X", 2, 100), ("A", "X", 7, 100), ("B", "X", 10, 100),
        ("C", "X", 1, 100), ("D", "X", 50, 100), ("E", "X", 30, 100)]
rdd = sc.parallelize(data)

someschema = rdd.map(lambda x: Row(c1=x[0], c2=x[1], val1=int(x[2]), val2=int(x[3])))

df = (sqlContext.createDataFrame(someschema)
      .withColumn('total_count', count('*').over(Window.partitionBy(<your N-1 dimensions here>)))
     .groupBy(<your N dimensions here>)
       .agg((count('*')/first(col('total_count'))).alias('percent_total'))
)

df.show()

【讨论】:

  • 使用窗口函数是一个有趣的想法,但你确定你的示例代码是正确的吗?我尝试将&lt;your dimensions here&gt; 设置为"c1" 运行它,c1 的每个值都返回percent_total1.0
  • @NickChammas:是的,模板代码是正确的,但你必须小心维度:总计数是在与 groupby 不同的级别完成的,即如果 group by 是用 N 个维度完成的,那么窗口函数必须按 N-1 维划分。对于 OP 的示例,特别是如果 groupBy('c1'),则使用不带参数的 Window.partitionBy()。
【解决方案3】:

您可以groupby 并与agg 聚合。例如,对于以下 DataFrame:

+--------+-----+
|category|value|
+--------+-----+
|       a|    1|
|       b|    2|
|       a|    3|
+--------+-----+

你可以使用:

import pyspark.sql.functions as F

df.groupby('category').agg(
    (F.count('value')).alias('count'),
    (F.count('value') / df.count()).alias('percentage')
).show()

输出:

+--------+-----+------------------+
|category|count|        percentage|
+--------+-----+------------------+
|       b|    1|0.3333333333333333|
|       a|    2|0.6666666666666666|
+--------+-----+------------------+

或者,您可以使用 SQL:

df.createOrReplaceTempView('df')

spark.sql(
    """
    SELECT category,
           COUNT(*) AS count,
           COUNT(*) / (SELECT COUNT(*) FROM df) AS ratio
    FROM df
    GROUP BY category
    """
).show()

【讨论】:

    【解决方案4】:

    更多“美化”输出,去掉多余的小数并排序

    import pyspark.sql.functions as func
    
    data_fr \
    .groupBy('col_name') \
    .count() \
    .withColumn('%', func.round((func.col('count')/count_cl)*100,2)) \
    .orderBy('count', ascending=False) \
    .show()
    
    +--------------------+-----+----+
    | col_name     |count|   %|
    +--------------------+-----+----+
    |      C.LQQQQ |30957|8.91|
    |      C.LQQQQ |29688|8.54|
    |      C-LQQQQ |29625|8.52|
    |       CLQQQQ |29342|8.44|
    

    ..... +--------------------+-----+----+ 只显示前 20 行

    【讨论】:

    • 这里的count_c1 是什么?
    猜你喜欢
    • 2021-02-20
    • 2017-10-13
    • 1970-01-01
    • 2021-05-26
    • 1970-01-01
    • 1970-01-01
    • 2018-04-19
    • 2019-01-26
    • 1970-01-01
    相关资源
    最近更新 更多