【发布时间】:2023-03-21 14:05:01
【问题描述】:
我怎样才能做到这一点?
from pyspark.sql import functions as F
from pyspark.context import SparkContext
from pyspark.sql.session import SparkSession
sc = SparkContext('local')
spark = SparkSession(sc)
grouped=df.groupby([col list]).agg(F.count([col list]))
我在 stackoverflow 上阅读过类似的问题,但找不到确切的答案。
即使我尝试放一列
grouped=dfn.groupby('col name').agg(F.count('col name'))
我明白了-
py4j\java_collections.py",第 500 行,转换中 对于对象中的元素: TypeError: 'type' 对象不可迭代
参考问题 - pyspark Column is not iterable
我事先不知道列名,需要通过 agg 函数提供列表作为分组的输入。
【问题讨论】:
标签: python apache-spark pyspark