【发布时间】:2017-05-03 22:32:21
【问题描述】:
finding out Hive LLAP之后,好想用。
我启动了启用 LLAP 的 Azure HDinsight 集群。但是,它似乎并没有比普通的 Hive 更好地工作。我将数据存储在 Parquet 文件中。我只看到 LLAP 相关文档或会谈中提到的 ORC 文件。
是否也支持 Parquet 格式?
【问题讨论】:
标签: hive parquet azure-hdinsight
finding out Hive LLAP之后,好想用。
我启动了启用 LLAP 的 Azure HDinsight 集群。但是,它似乎并没有比普通的 Hive 更好地工作。我将数据存储在 Parquet 文件中。我只看到 LLAP 相关文档或会谈中提到的 ORC 文件。
是否也支持 Parquet 格式?
【问题讨论】:
标签: hive parquet azure-hdinsight
回答我自己的问题。
我们联系了 Azure 支持。 Hive LLAP 仅适用于 ORC 文件格式(截至 05.2017)。
因此,对于 Parquet,我们要么必须使用 Apache Impala 进行快速交互式查询 (https://impala.incubator.apache.org) 来替代 LLAP,要么将存储的文件格式更改为 ORC。
【讨论】:
更新:目前正在进行这项工作,下一版本的 HDP 将不再是这种情况。从 HDP 3.0 开始。 LLAP 将支持 Parquet 文件格式的缓存。此更新应在 3.0 版本发布后不久流入 HDInsights。
【讨论】: