【问题标题】:How to count number of columns in Spark Dataframe?如何计算 Spark Dataframe 中的列数?
【发布时间】:2019-01-04 07:40:10
【问题描述】:

我在 Spark 中有这个数据框,我想计算其中的可用列数。我知道如何计算列中的行数,但我想计算列数。

val df1 = Seq(
    ("spark", "scala",  "2015-10-14", 10,"rahul"),
    ("spark", "scala", "2015-10-15", 11,"abhishek"),
    ("spark", "scala", "2015-10-16", 12,"Jay"),
    ("spark","scala",null,13,"Kiran"))
  .toDF("bu_name","client_name","date","patient_id","paitent _name")
df1.show

谁能告诉我如何计算此数据框中的列数?我正在使用 Scala 语言。

【问题讨论】:

    标签: scala apache-spark dataframe apache-spark-sql


    【解决方案1】:

    要计算列数,只需执行以下操作:

    df1.columns.size
    

    【讨论】:

      【解决方案2】:

      在 python 中,以下代码对我有用:

      print(len(df.columns))
      

      【讨论】:

        【解决方案3】:

        data.columns 访问列标题列表。您所要做的就是计算列表中的项目数。所以

        len(df1.columns)
        

        作品 为了获得单个变量中的全部数据,我们这样做

        rows = df.count()
        columns = len(df.columns)
        size = (rows, columns)
        print(size)
        

        【讨论】:

          【解决方案4】:

          可变索引序列的长度也有效。

          df.columns.length
          

          【讨论】:

            【解决方案5】:

            统计 Spark 数据帧的列数:

            len(df1.columns)
            

            并计算数据帧的行数:

            df1.count()
            

            【讨论】:

              【解决方案6】:

              在 Pyspark 中,您只需 result.select("your column").count()

              【讨论】:

                猜你喜欢
                • 2017-04-14
                • 1970-01-01
                • 2019-05-02
                • 2017-06-05
                • 2021-09-25
                • 1970-01-01
                • 1970-01-01
                • 1970-01-01
                • 2021-08-13
                相关资源
                最近更新 更多