【发布时间】:2017-11-11 13:01:53
【问题描述】:
我使用 Spark 生成了一些分区 parquet 数据,我想知道如何将其映射到 Impala 表...遗憾的是,我还没有找到任何解决方案。
拼花的架构是这样的:
{ key: long,
value: string,
date: long }
我用key 和date 对它进行了分区,这样我的hdfs 上就有了这种目录:
/data/key=1/date=20170101/files.parquet
/data/key=1/date=20170102/files.parquet
/data/key=2/date=20170101/files.parquet
/data/key=2/date=20170102/files.parquet
...
你知道我如何告诉 Impala 从这个数据集创建一个带有相应分区的表(并且不必像我读过的那样在每个分区上循环)吗?有可能吗?
提前谢谢你
【问题讨论】:
-
您是否尝试过改变视角,即使用 Impala 创建一个 EXTERNAL 表,然后使用 Spark
hiveContext插入该表,然后只需在 Impala 中运行 REFRESH 以确认新数据文件? -
顺便说一句,您确定您的分区有意义吗?您的 Parquet 文件有多大?而
date列只会带来麻烦,因为它是 SQL 中的保留字......!
标签: apache-spark parquet impala partition