【问题标题】:How to count the number of columns in a pyspark RDD?如何计算 pyspark RDD 中的列数?
【发布时间】:2021-08-30 12:17:48
【问题描述】:

如何在不将其转换为 Dataframe 的情况下计算 pyspark RDD 中的列数?

为什么他们没有内置函数来计算列数?对于行,有 .count()

【问题讨论】:

  • 可能是因为 RDD 不是面向列的对象,而是 Key/values ...
  • 但是老师要求我们这样做
  • 从column的定义开始。复杂类型呢?带有 dict 的元素也被视为列吗?但可以肯定的是,如果你的老师问它,那一定是可能的...... ????

标签: python pyspark rdd


【解决方案1】:

一种方法是

len(rdd.take(1)[0])

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2020-09-03
    • 1970-01-01
    • 1970-01-01
    • 2016-07-15
    • 1970-01-01
    • 2021-05-24
    • 2020-12-06
    • 1970-01-01
    相关资源
    最近更新 更多