【发布时间】:2018-09-10 20:14:24
【问题描述】:
我在emr 集群上的pyspark shell 中运行代码,遇到了我以前从未见过的错误...
这条线有效:
spark.read.parquet(s3_input).take(99)
虽然此行导致异常:
spark.read.parquet(s3_input).rdd.take(99)
有
TypeError: 'int' 对象不可迭代
【问题讨论】:
-
您确定转换代码与您在帖子中的代码一样吗?如果是这种情况,那么该错误无法解释...您是否在 rdd 上运行了一些
map操作? -
这些是我在集群上运行的确切 2 行,使用相同的
s3_input
标签: apache-spark pyspark