【发布时间】:2026-01-16 15:25:01
【问题描述】:
我有两个 Pcollections
P1 as Pcollection KV<String,Object>
P2 as Pcollection KV<String,Long>
两个 Pcollections 中的 Key 相同,但值不同。
P1 大约有 7000 万个条目,P2 是 P1 的子集,有 3000 万个条目。
现在我需要将 P1 拆分为两个集合,这样 P1.A 将仅包含 P2 中的键,而 P1.B 将包含 P2 中不存在的键。
我不想使用 co-groupbykey 或任何连接,因为它会导致数据混洗。
可以将 20M 个条目(所有字符串)用作侧面输入,可能用作 HashMap 吗?这是一个好方法吗?
是否建议任何其他最佳方法将 P1 分成两个集合,一个是 P2 中键的交集,而另一个是 P2 的负数?
【问题讨论】:
标签: java google-cloud-platform google-cloud-dataflow apache-beam