【发布时间】:2018-05-07 08:57:46
【问题描述】:
我是 spark 和 hive 的新手。我需要了解在 Spark 中查询配置单元表时会发生什么。我正在使用 PySpark
例如:
warehouse_location = '\user\hive\warehouse'
from pyspark.sql import SparkSession
spark =SparkSession.builder.appName("Pyspark").config("spark.sql.warehouse.dir", warehouse_location).enableHiveSupport().getOrCreate()
DF = spark.sql("select * from hive_table")
上述情况下,实际的SQL是运行在spark框架中还是运行在Hive的MapReduce框架中。
我只是想知道如何处理 SQL。无论是在 Hive 还是 Spark 中?
【问题讨论】:
-
当 Hive 查询应用于数据帧时,它会在处理之前转换为 SparkSQL
标签: apache-spark hive mapreduce pyspark