【问题标题】:Hive parquet compression doesn't work蜂巢拼花压缩不起作用
【发布时间】:2018-02-16 14:51:28
【问题描述】:

Hive 2.3 版

SET hive.exec.compress.output=true;

CREATED TABLE (
*)  STORED AS PARQUET
LOCATION 's3 location'
TBLPROPERTIES ('parquet.compress'='SNAPPY');

我在上面做了,但是 s3 位置的表输出没有被压缩,我可以通过 cat 看到结果,我也尝试了 'TBLPROPERTIES ('PARQUET.COMPRESS'='ZLIB');'那也没有用。有谁知道使用蜂巢压缩镶木地板的最佳方法是什么?谢谢你。

【问题讨论】:

    标签: hive compression parquet snappy


    【解决方案1】:
    SET hive.exec.compress.output=true;
    SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
    SET mapred.output.compression.type=BLOCK;
    
    
    CREATED TABLE (*)  STORED AS PARQUET LOCATION 's3 location';
    

    您还可以设置其他压缩格式。压缩列表

    1. gzip - org.apache.hadoop.io.compress.GzipCodec
    2. bzip2 - org.apache.hadoop.io.compress.BZip2Codec
    3. LZO - com.hadoop.compression.lzo.LzopCodec
    4. Snappy - org.apache.hadoop.io.compress.SnappyCodec
    5. Deflate -org.apache.hadoop.io.compress.DeflateCodec

    从上面的列表中,Snappy 不是默认的,DeflateCodec 是默认的。 您可以通过运行确认这一点

    hive> SET mapred.output.compression.codec;
    

    【讨论】:

    • 我厌倦了你上面说的,添加了 SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;设置 mapred.output.compression.type=块;到我的配置单元脚本,但输出仍未压缩。我可以打开文件并直接查看内容。
    • 仍在尝试解决这个问题。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2019-02-07
    • 2018-12-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多