【发布时间】:2020-01-20 14:31:26
【问题描述】:
如何在这个循环通过循环列表的 Pyspark 数据框中添加一列,如下所示:
df = sc.parallelize([['2019-08-29 01:00:00'],
['2019-08-29 02:00:00'],
['2019-08-29 03:00:00'],
['2019-08-29 04:00:00'],
['2019-08-29 05:00:00'],
['2019-08-29 06:00:00'],
['2019-08-29 07:00:00'],
['2019-08-29 08:00:00'],
['2019-08-29 09:00:00'],
['2019-08-29 10:00:00']]).toDF(['DATETIME']).withColumn('DATETIME',col('DATETIME').cast('timestamp'))
期望的结果:
+-------------------+---+
| DATETIME|NUM|
+-------------------+---+
|2019-08-29 01:00:00| 1|
|2019-08-29 02:00:00| 2|
|2019-08-29 03:00:00| 3|
|2019-08-29 04:00:00| 4|
|2019-08-29 05:00:00| 1|
|2019-08-29 06:00:00| 2|
|2019-08-29 07:00:00| 3|
|2019-08-29 08:00:00| 4|
|2019-08-29 09:00:00| 1|
|2019-08-29 10:00:00| 2|
+-------------------+---+
非常感谢
【问题讨论】:
标签: python pyspark pyspark-dataframes circular-list