【发布时间】:2021-04-25 11:31:24
【问题描述】:
我有一个庞大的数据集,为了说明,我简化了下面给出的数据集:
date product price amount
201901 A 10 20
201902 A 10 20
201903 A 20 30
201904 C 40 50
在此数据集中,日期列显示 year-weekNumber,我正在尝试将字符串类型转换为 pyspark 数据框中的日期类型。有没有什么有效的方法可以将日期列设置为“日期”类型?
【问题讨论】:
-
这行得通吗?
df['parsed_date'] = df['date'].apply(lambda s: datetime.strptime(s, '%Y%U'))顺便说一句,strftime.org 是一个令人难忘的网页,可以通过strftime指令查看。 -
实际上,这里提到的周数更复杂:stackoverflow.com/questions/17087314/get-date-from-week-number。我认为正确解析它需要确切知道输入数据中的周数代表什么。无论如何,一周数是不够的,我们还需要一周中的一天。
标签: dataframe date apache-spark pyspark week-number