【问题标题】:How to convert spark sql dataframe to numpy array?如何将 spark sql 数据框转换为 numpy 数组?
【发布时间】:2017-06-05 20:37:19
【问题描述】:

我正在使用 pyspark 并将配置单元表导入到数据框中。

df = sqlContext.sql("from hive_table select *") 

我需要有关将此 df 转换为 numpy 数组的帮助。您可以假设 hive_table 只有一列。

你能推荐一下吗?先感谢您。

【问题讨论】:

    标签: python arrays numpy apache-spark dataframe


    【解决方案1】:

    你可以:

    sqlContext.range(0, 10).toPandas().values  # .reshape(-1) for 1d array
    
    array([[0],
           [1],
           [2],
           [3],
           [4],
           [5],
           [6],
           [7],
           [8],
           [9]])
    

    但你不太可能真的想要。创建的array 将在驱动程序节点本地,因此它很少有用。如果您正在寻找某种分布式数组式数据结构的变体,Apache Spark 中有许多可能的选择:

    并且独立于 Apache Spark:

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-02-10
      • 2014-03-23
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多