【发布时间】:2013-02-12 13:47:15
【问题描述】:
我有一小部分文件被缓存并通过 DistributedCache 分发到 map reduce 作业。 缓存的文件将来需要定期更新。我想知道是否可以在不重新启动 map reduce 作业的情况下更新缓存文件。
我阅读了有关 DistributedCache 跟踪缓存文件的修改时间戳的信息。当 map reduce 作业不使用文件时,这对更新文件有用吗?
【问题讨论】:
标签: hadoop
我有一小部分文件被缓存并通过 DistributedCache 分发到 map reduce 作业。 缓存的文件将来需要定期更新。我想知道是否可以在不重新启动 map reduce 作业的情况下更新缓存文件。
我阅读了有关 DistributedCache 跟踪缓存文件的修改时间戳的信息。当 map reduce 作业不使用文件时,这对更新文件有用吗?
【问题讨论】:
标签: hadoop
缓存文件在提交作业时被复制到 HDFS,然后在它们产生 M/R 任务之前由不同的任务跟踪器本地复制到本地节点。因此,分布式缓存中的文件在作业运行时无法更改。
【讨论】: