【问题标题】:Does Google Dataproc support Apache Impala?Google Dataproc 是否支持 Apache Impala?
【发布时间】:2019-05-30 20:07:10
【问题描述】:

我是使用云服务的新手,在 Google 的云平台上导航非常令人生畏。谈到 Google Dataproc,他们确实在宣传 Hadoop、Spark 和 Hive。

我的问题是,Impala 是否可用?

我想使用所有这四个工具做一些基准测试项目,我需要 Apache Impala 和 Spark/Hive。

【问题讨论】:

    标签: google-cloud-platform impala google-cloud-dataproc


    【解决方案1】:

    不,DataProc 是一个支持 Hadoop、Spark、Hive 和 pig 的集群;使用默认图像。

    查看此链接以获取有关 DataProc 的本机图像列表的更多信息

    https://cloud.google.com/dataproc/docs/concepts/versioning/dataproc-versions

    【讨论】:

    • 感谢您的回答。我自己确实找到了这个页面,想知道它是否仅限于那里列出的那些工具。看起来我要使用 AWS :)
    【解决方案2】:

    您也可以尝试使用另一个新的 Dataproc 实例,而不是使用默认值。

    例如,您可以使用HUE (Hadoop User Experience) 创建一个Dataproc 实例,这是一个处理Cloudera 构建的Hadoop 集群的接口。这里的优点是 HUE 作为默认组件 Apache Impala。它还有 Pig、Hive 等。所以它是使用 Impala 的一个很好的解决方案。

    另一种解决方案是从一开始就创建自己的集群,但这不是一个好主意(至少您想自定义所有内容)。通过这种方式,您可以安装 Impala。

    这是一个链接,了解更多信息:

    https://github.com/GoogleCloudPlatform/dataproc-initialization-actions/tree/master/hue

    【讨论】:

    • Impala 与 Hue 不同,初始化 Hue 将不会安装 Impala。
    【解决方案3】:

    Dataproc 为您提供对 master 和 worker 的 SSH 访问,因此可以安装其他软件,根据 Impala 文档,您需要:

    请记住,建议为每个 DataNode 安装 impalad 守护程序。

    【讨论】:

      【解决方案4】:

      Cloud Dataproc 在集群上默认支持 Hadoop、Spark、Hive、Pig。您可以安装更多可选支持的组件,例如 Zookeeper、Jyputer、Anaconda、Kerberos、Druid 和 Presto(您可以找到完整列表 here)。此外,您还可以使用initialization-actions 安装大量开源组件。

      Impala 不支持作为可选组件,并且还没有针对它的初始化操作脚本。您可以让它在带有 HDFS 的 Dataproc 上工作,但要让它在 GCS 上工作可能需要进行重大更改。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2011-02-16
        • 2016-09-12
        • 2015-10-16
        • 2015-05-10
        相关资源
        最近更新 更多