【发布时间】:2016-04-05 21:33:10
【问题描述】:
假设我们有一个分布式系统,集群中有 K 台机器。每台机器存储几个整数。我想从系统中删除所有重复的值。所以如果整数 123 出现在 machine1 和 machine2 中,我们应该在系统中只保留一个 123。我该如何处理?
我的想法是首先让每台机器使用桶排序(所有 nummers 都是整数)之类的方法执行 removeDuplicate 操作,然后让一台机器作为主节点进行减少。有没有更好的办法?
【问题讨论】:
-
您的问题非常有趣,但不幸的是,对于 SO 而言,它的范围很广且离题。尽管如此,它主要是关于良好的分区,它应该对整个网络上的数据进行洗牌和排序,而不是具有低上限复杂度的地图分区,然后在最后减少
-
整数的用途和预期的输出是什么?
标签: parallel-processing mapreduce distributed-system