【发布时间】:2016-05-19 18:01:48
【问题描述】:
我有一个数据框,其日期格式如下:
+----------------------+
|date |
+----------------------+
|May 6, 2016 5:59:34 AM|
+----------------------+
我打算以 YYYY-MM-DD 的格式从中提取日期;所以结果应该是上述日期 - 2016-05-06。
但是当我提取时使用以下内容:
df.withColumn('part_date', from_unixtime(unix_timestamp(df.date, "MMM dd, YYYY hh:mm:ss aa"), "yyyy-MM-dd"))
我得到以下日期
2015-12-27
任何人都可以就此提出建议吗?我不打算将我的 df 转换为 rdd 以使用 python 中的 datetime 函数,并希望在它自己的数据框中使用它。
【问题讨论】:
标签: datetime apache-spark pyspark pyspark-sql