【发布时间】:2020-12-29 10:11:59
【问题描述】:
我最近遇到了这个talk,关于通过使用“迭代”广播联接来处理 Spark SQL 中的倾斜问题,以在将大表与另一个不太小的表联接时提高查询性能。该演讲建议使用“迭代广播连接”来解决此类情况。不幸的是,演讲的深度不足以让我理解它的实现。
因此,我希望有人可以通过几个示例说明如何在 Spark SQL 中实现此迭代广播联接。如何使用带有 SQL-API 的 Spark SQL 查询来实现相同的功能?
注意:我使用的是 Spark SQL 查询 2.4
感谢任何帮助。谢谢
【问题讨论】:
标签: apache-spark apache-spark-sql