【发布时间】:2020-08-10 12:29:04
【问题描述】:
在 Python 中,我有一个包含 135~ 列的现有 Spark DataFrame,称为 sc_df1。我还有一个 Pandas DataFrame,其中包含我想转换为 Spark DataFrame 的完全相同的列,然后是 unionByName 两个 Spark DataFrame。即sc_df1.unionByName(sc_df2)。
有谁知道在将 Pandas DataFrame 转换为 Spark DataFrame 时如何使用sc_df1 的架构,以便两个 Spark DataFrame 在联合时具有相同的架构?
我知道这行不通,但下面基本上是我想要做的:
sc_df2 = sc.createDataFrame(df2, schema = sc_df1.dtypes)
【问题讨论】:
-
使用
sc_df1.schema有效吗?
标签: pandas dataframe apache-spark pyspark