【发布时间】:2017-08-08 13:30:30
【问题描述】:
我们将每天扫描我们的 aerospike 并从扫描结果中得到一些东西。 现在我们正在考虑将扫描更改为 map-reduce 作业。但我发现有些东西可能会使这次尝试失败。我还没有找到任何简单的方法将扫描作业拆分为多个子任务。例如,我在一个 aerospike 集群中有 8 个节点,我能想象的唯一可以为 mapper 分配数据集的拆分模式是分别使用 8 个 mapper 扫描 8 个节点。我们在一个节点中有 4 组,当然我可以使用更多映射器扫描每组节点,但这会导致每个映射器的数据集不平衡。
那么有什么方法可以让我使用多个进程在一个节点中扫描一组?
【问题讨论】:
-
您说的是如何将 Aerospike 与 Hadoop 连接起来?或者您是在泛泛地谈论不同的扫描策略,将部分数据发送到不同的应用节点?
标签: hadoop mapreduce aerospike