【问题标题】:Running Hive queries with GCP Composer使用 GCP Composer 运行 Hive 查询
【发布时间】:2019-05-03 01:36:32
【问题描述】:

所以我打算使用 GCP Composer 来运行几个 Hive 作业。

将 Hive 与 Dataproc 一起使用是实现此目的的最佳方式吗?

为此应将数据存储在哪里? Dataproc 可以从 Google Cloud Storage 存储桶中读取数据吗?

【问题讨论】:

    标签: python google-cloud-platform airflow google-cloud-dataproc google-cloud-composer


    【解决方案1】:

    是的,Dataproc 可以从 GCS 存储桶中读取数据。例如阅读:https://cloud.google.com/solutions/using-apache-hive-on-cloud-dataproc#creating_a_hive_table

    然后您可以使用 DataProcHiveOperator 使用 Cloud Composer 对其运行查询。

    【讨论】:

      【解决方案2】:

      您可以通过多种方式在 dataproc 中提交配置单元作业。
      dataproc 从 google 存储桶中读取数据。我已经回答了这个问题HERE

      很少有你可以在 dataporc 中提交你的 hive 作业。
      1)你可以通过选择查询选项直接给出命令。
      2)你可以选择查询文件选项,然后提及的位置文件(谷歌存储)。例如Here

      现在来回答您的第一个问题,将 hive 与 Dataproc 一起使用是实现此目的的最佳方式吗? -
      这完全取决于您的要求。有很多工作可供选择,您必须根据自己的要求进行选择,因此这是最好的。如果您能详细说明您的要求,我可以更清楚地回答它。

      好吧,我可以为您提供 HIVE JOBS 的要点,以便您理清您的要求.

      您可以在 Hive 作业中执行以下操作:

      • 您可以提供内联查询(一个或多个)
      • 可以给查询命令表单查询文件(一个或多个)
      • 您可以在配置单元中添加 jar 文件 - 可以用于任何目的,例如 UDF(一个或多个)
      • 您可以添加其他属性来配置您的作业
      • 您可以自动化作业
        这就是基本的蜂巢工作。

      Airflow Data Proc Documentation 拥有您可以使用的所有可用运算符。

      【讨论】:

        猜你喜欢
        • 2023-03-13
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多