【发布时间】:2019-11-18 08:29:24
【问题描述】:
我有按日期和时间分区的 Avro 格式的数据,并且我每小时都会收到新数据。较新的分区可以包含比旧分区更多的列。当我通过 Spark 2.4.3 阅读它时,我得到了带有第一个(最旧)分区模式的 DataFrame,并且所有新添加的列都丢失了。 我应该怎么做才能阅读所有专栏?有什么解决方法吗?
谢谢。
【问题讨论】:
-
你能添加一段你的代码吗?
-
这里是 =) sparkSession.read .format("avro") .load(pathToData)
标签: apache-spark avro spark-avro