【发布时间】:2016-03-22 01:53:20
【问题描述】:
我知道我们可以使用 Spark SQL 和 Impala 加载 parquet 文件,但想知道我们是否可以使用 Hive 来做同样的事情。我已经阅读了很多文章,但我仍然感到困惑。
简单地说,我有一个镶木地板文件 - 比如说 users.parquet。现在,我对如何将 users.parquet 中的数据加载/插入/导入配置单元(显然是表)感到震惊。
如果我遗漏了一些明显的东西,请建议或指出正确的方向。
Creating hive table using parquet file metadata
https://phdata.io/examples-using-textfile-and-parquet-with-hive-and-impala/
【问题讨论】:
-
我对 ORC 文件所做的一个技巧(实际上是将 Prod 表克隆到测试集群中):创建一个具有相同结构的非分区表;将数据文件复制到新表使用的目录; 瞧,表格已填充。也可以与 Parquet 一起使用。
标签: hadoop hive apache-spark-sql hiveql parquet