【问题标题】:synchronize multiple map reduce jobs in hadoop在hadoop中同步多个map reduce作业
【发布时间】:2023-03-08 15:54:02
【问题描述】:

我有一个可以同时运行多个作业的用例。所有作业的输出都必须与 HDFS 中没有重复的通用主文件(包含键值对)合并。我不确定如何避免在这种情况下可能出现的竞争条件。例如,作业 1 和作业 2 同时将相同的值写入主文件,从而导致重复。感谢您在这方面的帮助。

【问题讨论】:

    标签: map hadoop reduce synchronize


    【解决方案1】:

    Apache Hadoop 不支持并行写入同一文件。这是reference

    HDFS 中的文件是一次写入的,并且在任何时候都严格只有一位写入者。

    因此,多个地图/作业不能同时写入同一个文件。必须编写另一个作业/shell 或任何其他程序来合并多个作业的输出。

    【讨论】:

    • Praveen,我正在考虑使用附加功能。让我知道您对此的看法。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-02-20
    • 1970-01-01
    • 2011-01-20
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多