【问题标题】:Updating the cached files in Distributed Cache in Hadoop在 Hadoop 中更新分布式缓存中的缓存文件
【发布时间】:2013-02-12 13:47:15
【问题描述】:

我有一小部分文件被缓存并通过 DistributedCache 分发到 map reduce 作业。 缓存的文件将来需要定期更新。我想知道是否可以在不重新启动 map reduce 作业的情况下更新缓存文件。

我阅读了有关 DistributedCache 跟踪缓存文件的修改时间戳的信息。当 map reduce 作业不使用文件时,这对更新文件有用吗?

【问题讨论】:

    标签: hadoop


    【解决方案1】:

    缓存文件在提交作业时被复制到 HDFS,然后在它们产生 M/R 任务之前由不同的任务跟踪器本地复制到本地节点。因此,分布式缓存中的文件在作业运行时无法更改。

    【讨论】:

    • 谢谢。如果无法修改,分布式缓存跟踪修改时间戳有什么用?
    • 来自here - DistributedCache 跟踪缓存文件的修改时间戳。显然,缓存文件不应在作业执行时由应用程序或外部修改。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多