【问题标题】:Hive table for an external Snappy avro data shows compression is false外部 Snappy avro 数据的 Hive 表显示压缩为假
【发布时间】:2018-01-08 11:01:48
【问题描述】:

使用sqoop导入单表

...
--as-avrodatafile
--compression-codec ...SnappyCodec
...

在 Hue 文件浏览器中查看通过显示消息 Output rendered from compressed avro file. 来确认它已被压缩

在 Hive 中创建外部表

create external table customers_avro
stored as avro
location '.../path/'
tblproperties('avro.schema.file'='/path/to/customers.avsc')

但是,当使用describe extended tblname 查询时显示compressed:false

...
inputFormat:org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat, outputFormat:org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat, compressed:false, numBuckets:-1, serdeInfo:SerDeInfo(name:null, serializationLib:org.apache.hadoop.hive.serde2.avro.AvroSerDe, parameters:{serialization.format=1})...

还有其他属性需要设置tblproperties吗?

【问题讨论】:

    标签: hive avro


    【解决方案1】:

    我建议验证您的数据是否正确压缩。你可以用这个。

    Compression codec detection in Hadoop from the command line,

    另外,了解你的 hive 和 sqoop 版本应该很有用,尝试像这样从 sqoop 导入

    --compression-codec snappy
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-05-30
      • 1970-01-01
      • 2017-06-09
      • 2021-01-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-02-01
      相关资源
      最近更新 更多