【发布时间】:2015-07-09 08:34:49
【问题描述】:
我对 hadoop 世界还比较陌生。我一直在关注我可以找到的示例,以了解记录拆分步骤如何用于 mapreduce 作业。我注意到 TextInputFormat 将文件拆分为记录,其中键作为字节偏移量,值作为字符串。在这种情况下,我们可以在一个映射器中有两条不同的记录,它们与不同的输入文件具有相同的偏移量。
它会以任何方式影响映射器吗?我认为如果我们不处理它(例如字数),映射器的键的唯一性是无关紧要的。但是如果我们必须在 mapper 中处理它,key 可能必须是唯一的。谁能详细说明一下?
提前致谢。
【问题讨论】:
-
你可能对这篇文章感兴趣:stackoverflow.com/questions/18642875/…
-
@frb :感谢分享链接。这是一个有趣的用例。但它仍然没有回答我的问题:是否存在我们可能需要为进入映射器的每条记录具有唯一键的情况。在这篇文章中,用户没有对其进行处理,因此没有体现出独特性。