【问题标题】:Spark SQL: how does it tell hive to run query on spark?Spark SQL:它如何告诉 hive 在 spark 上运行查询?
【发布时间】:2017-03-21 17:35:16
【问题描述】:

正如这里正确指出的那样: Spark SQL query execution on Hive

通过 HiveContext 运行的 Spark SQL 将使 SQL 查询使用 spark 引擎。

spark SQL 设置 hive.execution.engine=spark 如何告诉 hive 这样做?

注意这是自动工作的,我们不必在 spark 的 conf 目录中的 hive-site.xml 中指定。

【问题讨论】:

    标签: apache-spark apache-spark-sql


    【解决方案1】:

    这里有2个独立的项目

    1. Hive on Spark - 将 Spark 作为附加引擎集成的 Hive 项目。
    2. Spark SQL - 使用 Hive 代码的 Spark 模块。

    HiveContext 属于第二个,hive.execution.engine 是第一个的属性。

    【讨论】:

    • 所以这意味着 spark sql 查询被转换为 RDD,然后在 Hive 物理数据上运行(可以使用 hive sql parser & hive metastore 将查询转换为物理计划)?
    • 实际上并不存在“Hive 物理数据”之类的东西。 Hive 支持不同的文件格式,其他数据引擎也可能支持。
    猜你喜欢
    • 2016-07-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-12-13
    • 2020-04-12
    相关资源
    最近更新 更多