【发布时间】:2021-06-18 09:49:07
【问题描述】:
我有一个 Pyspark 数据框,其架构定义为
最后 4 列 - genres_value,production_companies_values,production_countries_values 和 spoken_languages_values 是解析 Json 字符串后的派生列,然后添加到原始数据帧中。
我正在尝试以 df2.groupBy("production_countries_values").count().show() 运行 groupBy,但它的抛出错误 - 'NoneType' 对象不可迭代。
我在列上尝试了 'select'、'filter' ,但这些命令返回没有任何错误,而在解析后添加的所有四个新列上的 groupBy 都抛出相同的错误 - 'NoneType' 对象不可迭代。 Groupby 在 DF 的其他列上工作。
命令 - df2.where(col('production_countries_values')=='unknown').show() 也抛出错误“NoneType”对象不可迭代
【问题讨论】:
标签: python pyspark apache-spark-sql