【发布时间】:2021-08-30 12:17:48
【问题描述】:
如何在不将其转换为 Dataframe 的情况下计算 pyspark RDD 中的列数?
为什么他们没有内置函数来计算列数?对于行,有 .count()。
【问题讨论】:
-
可能是因为 RDD 不是面向列的对象,而是 Key/values ...
-
但是老师要求我们这样做
-
从column的定义开始。复杂类型呢?带有 dict 的元素也被视为列吗?但可以肯定的是,如果你的老师问它,那一定是可能的...... ????