【发布时间】:2020-06-12 21:06:58
【问题描述】:
我正在尝试将数据框中的列值列表提取到列表中
+------+----------+------------+
|sno_id|updt_dt |process_flag|
+------+----------+------------+
| 123 |01-01-2020| Y |
+------+----------+------------+
| 234 |01-01-2020| Y |
+------+----------+------------+
| 512 |01-01-2020| Y |
+------+----------+------------+
| 111 |01-01-2020| Y |
+------+----------+------------+
输出应该是 sno_id ['123','234','512','111'] 的列表 然后我需要迭代列表以对列表值上的每个值运行一些逻辑。我目前正在使用 HiveWarehouseSession 通过使用 hive.executeQuery(query) 将数据从 hive 表中提取到 Dataframe 中
感谢您的帮助。
【问题讨论】:
-
你试图在列表值上运行什么逻辑?您是使用 process_flag 还是 updt_dt 还是两者都分组?
标签: pyspark pyspark-dataframes