【发布时间】:2012-11-02 03:19:39
【问题描述】:
我遇到了一个算法,其中相同的文件被加载到每个映射器的主内存中。
我假设,对于每个映射器,我们必须使用分布式缓存来获取文件,读取文件并将其加载到内存中。当我实现这个时,我发现地图需要很长时间才能完成。我假设,这是因为每次从本地磁盘读取每个映射器值的文件。
我的实施是否正确?
还有其他建议吗?
请帮忙!提前致谢!
【问题讨论】:
我遇到了一个算法,其中相同的文件被加载到每个映射器的主内存中。
我假设,对于每个映射器,我们必须使用分布式缓存来获取文件,读取文件并将其加载到内存中。当我实现这个时,我发现地图需要很长时间才能完成。我假设,这是因为每次从本地磁盘读取每个映射器值的文件。
我的实施是否正确?
还有其他建议吗?
请帮忙!提前致谢!
【问题讨论】:
您想在 Mapper setup() 方法中从本地磁盘读取。使用实例变量来保持引用。
【讨论】: