【问题标题】:How to convert a dataframe to a variable如何将数据框转换为变量
【发布时间】:2019-11-05 13:32:02
【问题描述】:

是否有任何直接函数可以转换数据框并分配给变量? 例如下面返回这个

>>> partitionRecordCount= spark.sql("select count(*) from mydb.mytable where partition_date="yyyymmdd")
>>> partitionRecordCount.show()

+--------+
|count(1)|
+--------+
|  206157|
+--------+

我需要的如下所示

>>> partitionRecordCount
206157

我需要将记录计数整数值直接放在左侧的那个变量中,而不是数据帧中。请指教

【问题讨论】:

  • 在这种情况下,只需执行partitionRecordCount = spark.sql("select * from mydb.mytable where partition_date='yyyymmdd'").count()

标签: dataframe pyspark


【解决方案1】:

看到这个答案 get value out of dataframe

因此,对于您的示例,您可以将其更改为:

partitionRecordCount = partitionRecordCount.collect()[0]

【讨论】:

  • 这将在下面给出
  • >>> k=RecordCount.collect()[0] >>> k Row(count(1)=328694)。不是所需的整数值 328694
  • @Rahul 的解决方案是否适合额外索引的需求?
【解决方案2】:

试试

partitionRecordCount.collect()[0][0]

【讨论】:

    猜你喜欢
    • 2019-11-21
    • 1970-01-01
    • 2020-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-06-19
    • 2019-02-08
    • 2011-08-23
    相关资源
    最近更新 更多