【发布时间】:2021-06-28 14:59:56
【问题描述】:
我正在尝试使用 pyspark 在一个时间范围内为多个 ID 选择数据。
我在 spark 数据框“event_df”中有四列
| ID | Time | Event_Start_Date | Event_End_Date |
|---|---|---|---|
| 241856 | 2020-10-18T09:16:49.000+0000 | 2020-11-12T20:15:00.000+0000 | 2020-11-12T20:45:00.000+0000 |
在“时间”中,有 2 个月的个人 ID 数据。不同的 ID 有不同的事件开始和结束日期但是,我只想选择 在“事件开始日期”和“事件结束日期”之间的数据。
我尝试了以下方法,但似乎没有返回我想要的内容
refined_df = event_df.where(( col ('Time') >= col ('Event_Start_Date')) & ( col ('Time') <= col ('Event_End_Date ')) )
【问题讨论】:
标签: python sql pyspark date-range