【发布时间】:2021-05-09 20:58:29
【问题描述】:
我有 2 个数据框:
df1 - 7 列(ID 和 VARCHAR),行:1,700,000
df2 - 7 列(ID 和 VARCHAR),行:25,000
需要找到所有可能的相似之处,没有办法跳过笛卡尔积。
AWS Glue:具有 10 个(或 20 个)G.1X Worker 的集群
已经针对 178 个分区进行了测试(从较大的 df 中过滤 df1 时会即时计算 Spark) 运行时间:10小时...我停止了工作! 但在 S3 上,发现了超过 999 个 part-XXX-YYYYY 文件。
问题:如果无法跳过交叉连接,如何在 Glue/Spark 上优化此交叉连接?
【问题讨论】:
-
你试过广播吗?如果由于内存问题广播失败,请尝试使用 G2X 工作类型。
-
我试过了。实际上是一样的 +/-。
-
最好估计一下,这个作业应该在指定的集群大小下运行多长时间(小时)?有什么方法吗?
标签: amazon-web-services apache-spark optimization cross-join