【发布时间】:2014-06-22 09:31:38
【问题描述】:
我想从数据库中导出数据并转换为 Avro + Parquet 格式。 Sqoop 支持 Avro 导出,但不支持 Parquet。我尝试使用 Apache Pig、Apache Crunch 等将 Avro 对象转换为 Parquet,但没有任何效果。
Apache pig 给我“引起:org.apache.hadoop.mapreduce.lib.input.InvalidInputException:输入路径不存在”。但输入路径存在于该位置。
Apache Crunch 总是抛出 :java.lang.ClassNotFoundException: Class org.apache.crunch.impl.mr.run.CrunchMapper not found" 尽管我已将它添加到 Hadoop 库路径中。
将数据从 DB 导出为 Parquet 格式的最佳且简单的方法是什么?
【问题讨论】:
标签: apache-pig sqoop avro parquet apache-crunch