【发布时间】:2020-12-22 22:12:43
【问题描述】:
我在尝试比较两个 pyspark 数据帧的架构时遇到了问题。
如果我使用df1.schema == df2.schema,它有时会返回True,但有时会返回False(我确定架构匹配)
但是,当我使用df1.printSchema() == df2.printSchema() 时,输出始终是True。
我知道df.schema的dataType是pyspark.sql.types.StructType,但是为什么有时会给出WRONG比较结果呢?它是 pyspark 中的错误吗?
【问题讨论】:
-
基本上
df1.printSchema()返回None,因此您没有进行有意义的比较。即使您的架构不匹配,它也会返回True。再看看有问题的DataFrame,它们真的一样吗?分享一些数据,分享一些代码。
标签: apache-spark types pyspark apache-spark-sql pyspark-dataframes