【发布时间】:2017-01-09 11:47:03
【问题描述】:
我想在 spark 版本 1.6.x 中使用 pyspark 将 RDD (k=table_name, v=content) 加载到分区 hive 表(年、月、日)中
尝试使用此 SQL 查询的逻辑的整个过程:
ALTER TABLE db_schema.%FILENAME_WITHOUT_EXTENSION% DROP IF EXISTS PARTITION (year=%YEAR%, month=%MONTH%, day=%DAY%);LOAD DATA INTO TABLE db_schema.%FILENAME_WITHOUT_EXTENSION% PARTITION (year=%YEAR%, month=%MONTH%, day=%DAY%);
有人可以给点建议吗?
【问题讨论】:
标签: apache-spark dataframe hive pyspark pyspark-sql