Spark SQL：它如何告诉 hive 在 spark 上运行查询？

【问题标题】：Spark SQL: how does it tell hive to run query on spark?Spark SQL：它如何告诉 hive 在 spark 上运行查询？
【发布时间】：2017-03-21 17:35:16
【问题描述】：

正如这里正确指出的那样： Spark SQL query execution on Hive

通过 HiveContext 运行的 Spark SQL 将使 SQL 查询使用 spark 引擎。

spark SQL 设置 hive.execution.engine=spark 如何告诉 hive 这样做？

注意这是自动工作的，我们不必在 spark 的 conf 目录中的 hive-site.xml 中指定。

【问题讨论】：

【解决方案1】：

这里有2个独立的项目

HiveContext 属于第二个，hive.execution.engine 是第一个的属性。

【讨论】：

所以这意味着 spark sql 查询被转换为 RDD，然后在 Hive 物理数据上运行（可以使用 hive sql parser & hive metastore 将查询转换为物理计划）？
实际上并不存在“Hive 物理数据”之类的东西。 Hive 支持不同的文件格式，其他数据引擎也可能支持。