【发布时间】:2018-02-20 14:40:26
【问题描述】:
我有两个数据框:bigDF 和 smallDF。
来自bigDF 我只想要不在smallDF 中的列。
smallDF 仅包含我不想在bigDF 中包含的 ID
我现在要做的是:
bigDF.join(broadcast(smallDF), Seq("id"), "left_anti")
问题是,spark 1.6.0 不支持 left_anti 连接。
还有其他方法可以实现吗?
附: bigDF 不应该被洗牌(这就是我使用broadcast() 的原因)
【问题讨论】:
-
我的回答解决了你的问题吗?
标签: apache-spark apache-spark-sql