【问题标题】:Parquet hive table on s3s3 上的镶木地板蜂巢表
【发布时间】:2016-12-11 23:30:59
【问题描述】:

我正在尝试(在 s3 上创建 parquet hive 表失败)。

create external table sequencefile_s3
(user_id bigint, 
creation_dt string
)
stored as sequencefile location 's3a://bucket/sequencefile';

序列文件完美运行。

create external table parquet_s3
(user_id bigint,
creation_dt string)
stored as parquet location 's3a://bucket/parquet';

insert into parquet_s3
select * from hdfs_data;

镶木地板不起作用。 这些文件是在 S3 存储桶/文件夹上创建的,select count(*) 有效,但是 select * from parquet_s3 limit 10 无效。


其他说明 我在 AWS 或 EC2 之外运行 cloudera 发行版 5.8。 S3a 配置正确(我可以通过 distcp 复制文件,并且 s3 序列文件和文本文件外部表工作正常)。

【问题讨论】:

    标签: amazon-s3 hive cloudera-cdh parquet


    【解决方案1】:

    首先,你并不清楚你的问题...
    什么问题?
    另外,错误日志很重要,运行时得到什么输出以及什么命令?
    我现在只能说 Hive 有自己的 SEQUENCEFILE 读取器和 SEQUENCEFILE 写入器库,用于通过序列文件进行读取和写入。
    它使用这些包中的 SEQUENCEFILE 输入和输出格式:

    • org.apache.hadoop.mapred.SequenceFileInputFormat
    • org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat

    在创建镶木地板时使用下表属性语句并重试

    tblproperties ("parquet.compress"="SNAPPY");

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2016-08-22
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-09-05
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多