【问题标题】:Python + Pandas + Spark - How to import a dataframe into Pandas dataframe and convert it into a dictionary?Python + Pandas + Spark - 如何将数据框导入 Pandas 数据框并将其转换为字典?
【发布时间】:2015-08-17 03:18:57
【问题描述】:

如何将数据框导入 Pandas 数据框并将其转换为字典?

我从 Spark 创建了这个数据框,

sc = SparkContext(appName="PythonSQL")
    sqlContext = SQLContext(sc)

    path = os.path.join(os.environ['SPARK_HOME'], "examples/src/main/resources/people.json")

# Create the DataFrame
df = sqlContext.read.json(path)

# Register this DataFrame as a table.
df.registerTempTable("people")

# SQL statements can be run by using the sql methods provided by sqlContext
teenagers = sqlContext.sql("SELECT name FROM people")

sc.stop()

当我尝试将其导入 Pandas 时,

teenagers = pd.DataFrame(teenagers, columns=['name'])

我收到此错误,

[client 127.0.0.1:50885] PandasError: DataFrame 构造函数不是 正确调用!

毕竟我只是想把dataframe转成字典,

dict = teenagers.set_index('name').to_dict()
print dict

有什么想法吗?

【问题讨论】:

    标签: python numpy pandas apache-spark spark-dataframe


    【解决方案1】:

    可以使用toPandas 方法将 Spark DataFrame 转换为 pandas DataFrame。

    【讨论】:

      猜你喜欢
      • 2018-09-12
      • 1970-01-01
      • 2019-02-22
      • 2017-07-16
      • 2020-12-22
      • 2015-10-06
      • 2022-09-30
      • 1970-01-01
      相关资源
      最近更新 更多