【问题标题】:Running Hive queries with GCP Composer使用 GCP Composer 运行 Hive 查询
【发布时间】:2019-05-03 01:36:32
【问题描述】:
所以我打算使用 GCP Composer 来运行几个 Hive 作业。
将 Hive 与 Dataproc 一起使用是实现此目的的最佳方式吗?
为此应将数据存储在哪里? Dataproc 可以从 Google Cloud Storage 存储桶中读取数据吗?
【问题讨论】:
标签:
python
google-cloud-platform
airflow
google-cloud-dataproc
google-cloud-composer
【解决方案2】:
您可以通过多种方式在 dataproc 中提交配置单元作业。
是 dataproc 从 google 存储桶中读取数据。我已经回答了这个问题HERE
很少有你可以在 dataporc 中提交你的 hive 作业。
1)你可以通过选择查询选项直接给出命令。
2)你可以选择查询文件选项,然后提及的位置文件(谷歌存储)。例如Here
现在来回答您的第一个问题,将 hive 与 Dataproc 一起使用是实现此目的的最佳方式吗? -
这完全取决于您的要求。有很多工作可供选择,您必须根据自己的要求进行选择,因此这是最好的。如果您能详细说明您的要求,我可以更清楚地回答它。
好吧,我可以为您提供 HIVE JOBS 的要点,以便您理清您的要求.
您可以在 Hive 作业中执行以下操作:
- 您可以提供内联查询(一个或多个)
- 可以给查询命令表单查询文件(一个或多个)
- 您可以在配置单元中添加 jar 文件 - 可以用于任何目的,例如 UDF(一个或多个)
- 您可以添加其他属性来配置您的作业
- 您可以自动化作业
这就是基本的蜂巢工作。
Airflow Data Proc Documentation 拥有您可以使用的所有可用运算符。