【发布时间】:2020-11-27 14:29:43
【问题描述】:
我正在学习 Spark。我有一个以下结构的数据框ts。
ts.show()
+--------------------+--------------------+
| UTC| PST|
+--------------------+--------------------+
|2020-11-04 02:24:...|2020-11-03 18:24:...|
+--------------------+--------------------+
我需要将ts插入到Hive中的分区表中,结构如下,
spark.sql(""" create table db.ts_part
(
UTC timestamp,
PST timestamp
)
PARTITIONED BY( bkup_dt DATE )
STORED AS ORC""")
如何在插入语句中动态传递system run date,以便根据日期在表中的bkup_dt 上进行分区。
我试过这样的代码。但是没有用
ts.write.partitionBy(current_date()).insertInto("db.ts_part",overwrite=False)
我该怎么做?有人可以帮忙吗!
【问题讨论】:
-
什么不起作用?什么是意外行为或错误代码?
-
我收到错误 - TypeError: Column is not iterable
标签: apache-spark pyspark hive