【发布时间】:2019-12-18 09:29:16
【问题描述】:
我正在处理PySpark。我有一个数据框,我需要将其转储为 JSON 文件,但 JSON 文件应具有以下格式,例如 -
{"Column 1": [9202, 9202, 9202, ....], "Column 2": ["FEMALE", "No matching concept", "MALE", ....]}
所以每列应该有 1 个键,对应的值应该有该列中所有值的列表
我尝试将其转换为 Pandas 数据框,然后转换为 dict,然后将其作为 JSON 转储并成功执行此操作,但由于数据量非常大,我想直接在 PySpark 数据框上执行
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql databricks