如何将 spark sql 数据框转换为 numpy 数组？

【问题标题】：How to convert spark sql dataframe to numpy array?如何将 spark sql 数据框转换为 numpy 数组？
【发布时间】：2017-06-05 20:37:19
【问题描述】：

我正在使用 pyspark 并将配置单元表导入到数据框中。

df = sqlContext.sql("from hive_table select *")

我需要有关将此 df 转换为 numpy 数组的帮助。您可以假设 hive_table 只有一列。

你能推荐一下吗？先感谢您。

【问题讨论】：

【解决方案1】：

你可以：

sqlContext.range(0, 10).toPandas().values  # .reshape(-1) for 1d array

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

但你不太可能真的想要。创建的array 将在驱动程序节点本地，因此它很少有用。如果您正在寻找某种分布式数组式数据结构的变体，Apache Spark 中有许多可能的选择：

并且独立于 Apache Spark：

【讨论】：