【发布时间】:2013-11-30 06:46:09
【问题描述】:
因此,我正在开发一个 hadoop 项目,该项目广泛使用了一些依赖于本地小文件可用性的第三方库。其中很多是配置文件,尽管其中一个是 34MB 的字典文件。本质上,我试图包装库以对更大的输入和输出进行操作。有问题的特定库是s-match 和WordNet JWNL。
确保这些较小的文件在运行时本地可用于映射器和减速器节点的正确方法是什么?
另一种方法是广泛更改第 3 方库,我显然宁愿避免这样做。肯定有一种方法可以将这些文件打包并传播到本地文件系统,从而避免 MR 作业需要专门从 HDFS 和/或特殊对象中读取。
【问题讨论】: