s3 上的镶木地板蜂巢表答案

【问题标题】：Parquet hive table on s3s3 上的镶木地板蜂巢表
【发布时间】：2016-12-11 23:30:59
【问题描述】：

我正在尝试（在 s3 上创建 parquet hive 表失败）。

create external table sequencefile_s3
(user_id bigint, 
creation_dt string
)
stored as sequencefile location 's3a://bucket/sequencefile';

序列文件完美运行。

create external table parquet_s3
(user_id bigint,
creation_dt string)
stored as parquet location 's3a://bucket/parquet';

insert into parquet_s3
select * from hdfs_data;

镶木地板不起作用。这些文件是在 S3 存储桶/文件夹上创建的，select count(*) 有效，但是 select * from parquet_s3 limit 10 无效。

其他说明我在 AWS 或 EC2 之外运行 cloudera 发行版 5.8。 S3a 配置正确（我可以通过 distcp 复制文件，并且 s3 序列文件和文本文件外部表工作正常）。

【问题讨论】：

标签： amazon-s3 hive cloudera-cdh parquet

【解决方案1】：

首先，你并不清楚你的问题...
什么问题？
另外，错误日志很重要，运行时得到什么输出以及什么命令？
我现在只能说 Hive 有自己的 SEQUENCEFILE 读取器和 SEQUENCEFILE 写入器库，用于通过序列文件进行读取和写入。
它使用这些包中的 SEQUENCEFILE 输入和输出格式：

org.apache.hadoop.mapred.SequenceFileInputFormat
org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat

在创建镶木地板时使用下表属性语句并重试

tblproperties ("parquet.compress"="SNAPPY");

【讨论】：