【发布时间】:2016-04-19 14:23:40
【问题描述】:
我正在使用 Pig 将 HDFS 上的 avro 文件导入到 HBase,但我必须将用户定义的函数 (UDF) 应用于行 ID。我正在使用Apache DataFU中的SHA函数
register datafu-pig-incubating-1.3.0.jar
define SHA datafu.pig.hash.SHA();
set hbase.zookeeper.quorum 'localhost';
set mapreduce.fileoutputcommitter.marksuccessfuljobs 'false';
avro = LOAD '/user/myuser/avro/' USING AvroStorage();
partitioned = FOREACH avro GENERATE SHA(ROW_ID) as key,VALUE_1,VALUE_2;
STORE partitioned INTO 'hbase://MYTABLE' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage('cf:value_1 cf:value_2');
我已经尝试了 DataFU 网站上的示例脚本,它们成功完成,如果我从它完成的脚本中删除 SHA() 调用,那么我错过了什么?
【问题讨论】:
标签: hbase apache-pig avro