【发布时间】:2011-10-24 18:29:54
【问题描述】:
我正在使用 Hadoop + Cassandra。我使用 setInputSplitSize(1000) 来不使映射器过载(并从堆内存中接收),默认为 64K。我总共只有 2M 行要处理。实际上每个拆分应该是〜1000行。
问题是一些映射器仍然接收 64K 行,我不知道为什么。通常有 2-3 个映射器的状态为 4000% 64000% 而不仅仅是 100%。当我检查日志时,我发现处理了 40K-64K 行。它没有崩溃或内存不足,但这 2-3 个任务在处理过程中开始,并在所有其他任务处理完毕后继续执行 2-3 小时。
这是正常行为吗?我该怎么做才能使拆分尺寸变牢固?
提前谢谢你!
【问题讨论】:
标签: java hadoop mapreduce cassandra