【发布时间】:2016-05-16 10:23:57
【问题描述】:
除非首先由withColumnRenamed 重命名,否则包含点(例如“id.orig_h”)的 pyspark 数据帧将不允许使用 groupby。有解决方法吗? "`a.b`" 似乎没有解决它。
【问题讨论】:
-
你能分享你用来分组的代码吗?
标签: apache-spark dataframe pyspark
除非首先由withColumnRenamed 重命名,否则包含点(例如“id.orig_h”)的 pyspark 数据帧将不允许使用 groupby。有解决方法吗? "`a.b`" 似乎没有解决它。
【问题讨论】:
标签: apache-spark dataframe pyspark
在我的 pyspark shell 中,以下 sn-ps 正在工作:
from pyspark.sql.functions import *
myCol = col("`id.orig_h`")
result = df.groupBy(myCol).agg(...)
和
myCol = df["`id.orig_h`"]
result = df.groupBy(myCol).agg(...)
希望对你有帮助。
【讨论】:
groupby("`id.orig_h`") 不起作用吗?
df.groupBy("`id.orig_h`").agg(...)
df.printSchema()的结果吗?