【发布时间】:2017-06-05 20:37:19
【问题描述】:
我正在使用 pyspark 并将配置单元表导入到数据框中。
df = sqlContext.sql("from hive_table select *")
我需要有关将此 df 转换为 numpy 数组的帮助。您可以假设 hive_table 只有一列。
你能推荐一下吗?先感谢您。
【问题讨论】:
标签: python arrays numpy apache-spark dataframe
我正在使用 pyspark 并将配置单元表导入到数据框中。
df = sqlContext.sql("from hive_table select *")
我需要有关将此 df 转换为 numpy 数组的帮助。您可以假设 hive_table 只有一列。
你能推荐一下吗?先感谢您。
【问题讨论】:
标签: python arrays numpy apache-spark dataframe
你可以:
sqlContext.range(0, 10).toPandas().values # .reshape(-1) for 1d array
array([[0],
[1],
[2],
[3],
[4],
[5],
[6],
[7],
[8],
[9]])
但你不太可能真的想要。创建的array 将在驱动程序节点本地,因此它很少有用。如果您正在寻找某种分布式数组式数据结构的变体,Apache Spark 中有许多可能的选择:
pyspark.mllib.linalg.distributed 提供了许多 distributed matrix 类。sparkit-learnArrayRDD.并且独立于 Apache Spark:
【讨论】: