【发布时间】:2020-06-11 17:45:35
【问题描述】:
我在 Spark 中有两个数据帧,都有一个 IP 列。一列有超过 800000 个条目,而另一列有 4000 个条目。我想要做的是查看较小数据帧中的 IP 是否出现在大数据帧的 IP 列中。
目前我所能做的就是比较列的第一行、列的第二行等。
提前致谢!
【问题讨论】:
-
我认为你在描述inner join
标签: sql scala apache-spark pyspark apache-zeppelin