【发布时间】:2019-10-20 21:57:20
【问题描述】:
我将 parquet 文件转换为 pandas 没有问题,但在将 parquet 转换为 spark df 并将 spark df 转换为 pandas 时遇到了问题。
创建火花会话后,我运行了这些代码
spark_df=spark.read.parquet('summarydata.parquet')
spark_df.select('*').toPandas()
或者,如果使用 parquet 对象 (pd.read_table('summary data.parquet'),我如何将其转换为 spark df?
我需要 spark df 和 pandas df 的原因是,对于一些较小的 DataFrame,我想轻松使用各种 pandas EDA 函数,但对于一些较大的,我需要使用 spark sql。而且先把 parquet 变成 pandas 然后再激发 df 似乎有点绕道。
【问题讨论】:
-
您的
PYSPARK_PYTHON环境变量是否设置为正确的python可执行文件并安装了pandas?因为它很简单,就像你有df = spark.read.parquet("data.parquet")将镶木地板文件读入 sparkdataframe和.toPandas()将 spark df 转换为 pandas df
标签: apache-spark parquet pyarrow