【发布时间】:2011-06-16 19:50:28
【问题描述】:
我只是想针对我们正在做的一些数据分析工作评估 HBase。
HBase 将包含我们的事件数据。关键是 eventId + time。我们希望在一个日期范围内对少数事件类型 (4-5) 进行分析。事件类型总数在1000左右。
在 hbase 表上运行 mapreduce 作业的问题是 initTableMapperJob(见下文)只需要 1 个扫描对象。出于性能原因,我们只想扫描给定日期范围内的 4-5 个事件类型的数据,而不是 1000 个事件类型。如果我们使用下面的方法,那么我想我们没有那个选择,因为它只需要 1 个扫描对象。
public static void initTableMapperJob(String table, 扫描扫描, 类映射器, 类输出KeyClass, 类输出值类, org.apache.hadoop.mapreduce.Job 作业) 抛出 IOException
是否可以在扫描对象列表上运行 mapreduce?任何解决方法?
谢谢
【问题讨论】: