【发布时间】:2020-05-11 21:30:58
【问题描述】:
我有一个 pyspark 数据框,其中包含我想从中创建时间戳的两列。
+----------+------------+
|start_date|daypart_hour|
+----------+------------+
|2019-09-17| 22|
|2019-09-17| 11|
|2019-09-17| 9|
+----------+------------+
daypart_hour 是从午夜到午夜的刻度,范围为 0-23。 0 与午夜关联,23 与晚上 11 点关联。
我很好奇如何制作这个......或者类似的东西。
+----------+------------+---------------------+
|start_date|daypart_hour| start_dt_ts|
+----------+------------+---------------------+
|2019-09-17| 22|2019-09-17 10:00:00pm|
|2019-09-17| 11|2019-09-17 11:00:00am|
|2019-09-17| 9|2019-09-17 09:00:00am|
+----------+------------+---------------------+
每个日期总是有 0-23 小时。没有缺失值。
【问题讨论】:
标签: python apache-spark pyspark etl amazon-emr