【发布时间】:2016-07-28 05:03:28
【问题描述】:
我使用pySpark 和sqlContext 使用以下查询处理数据:
(sqlContext.sql("select LastUpdate,Count(1) as Count" from temp_t)
.rdd.coalesce(1).saveAsTextFile("/apps/hive/warehouse/Count"))
按以下格式存储:
Row(LastUpdate=u'2016-03-14 12:27:55.01', Count=1)
Row(LastUpdate=u'2016-02-18 11:56:54.613', Count=1)
Row(LastUpdate=u'2016-04-13 13:53:32.697', Count=1)
Row(LastUpdate=u'2016-02-22 17:43:37.257', Count=5)
但我想将数据存储在 Hive 表中
LastUpdate Count
2016-03-14 12:27:55.01 1
. .
. .
这是我在 Hive 中创建表的方式:
CREATE TABLE Data_Count(LastUpdate string, Count int )
ROW FORMAT DELIMITED fields terminated by '|';
我尝试了很多选项,但都没有成功。请帮我解决这个问题。
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql apache-hive