【发布时间】:2019-12-29 17:40:04
【问题描述】:
我有一个 JSON 文件,我想做一些 ETL 任务。 我想提取一列并将其值附加为数据框中的新行。 例如,如果我有这样的数据框:
-----------------------------------------------------------------
|name | last | father |
-----------------------------------------------------------------
| daniel | allardice | {'name': 'george', 'last': 'allardice'} |
-----------------------------------------------------------------
我想把它变成:
----------------------------
| name | last |
----------------------------
| daniel | allardice |
----------------------------
| george | allardice |
----------------------------
如何在 PySpark 中通过 UDF 执行此操作?
【问题讨论】:
标签: apache-spark pyspark pyspark-sql pyspark-dataframes