【问题标题】:Querying Parquet file in HDFS using Impala使用 Impala 在 HDFS 中查询 Parquet 文件
【发布时间】:2019-06-14 10:01:19
【问题描述】:

我正在尝试使用 Impala 读取镶木地板文件。

impala-shell> SELECT * FROM `/path/in/hdfs/*.parquet`

我知道我可以使用 Spark 或 Drill 做到这一点,但我想知道 Impala 是否可以做到这一点?

谢谢

【问题讨论】:

    标签: hdfs parquet impala


    【解决方案1】:

    您需要在 parquet 文件之上创建结构化的 table 以通过 Impala 进行查询。

    external table 指向 parquet 目录的一般示例... Cloudera 文档在此处提供所有方法:

    https://www.cloudera.com/documentation/enterprise/latest/topics/impala_parquet.html#parquet_ddl

    CREATE EXTERNAL TABLE ingest_existing_files LIKE PARQUET '/user/etl/destination/datafile1.dat'
      STORED AS PARQUET
      LOCATION '/user/etl/destination';
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-11-08
      • 1970-01-01
      • 1970-01-01
      • 2017-08-07
      • 2023-03-16
      相关资源
      最近更新 更多