【发布时间】:2021-08-13 07:47:28
【问题描述】:
我有 dataframe_1:
+-------------+----+---------+
| Name| Age| Salary|
+-------------+----+---------+
|Avery Bradley|25.0|7730337.0|
| Jae Crowder|25.0|6796117.0|
+-------------+----+---------+
并希望将其转换为 dataframe_2:
+----------------------------------------------------------------------------------------------------------------------+
| json_data |
+----------------------------------------------------------------------------------------------------------------------+
|[{"Name": "Avery Bradley", "Age": 25.0, "Salary" 7730337.0}, {"Name": "Jae Crowder", "Age": 25.0, "Salary" 6796117.0}]|
+----------------------------------------------------------------------------------------------------------------------+
我可以做dataframe_1.toPandas().to_dict(orient="records"),但这将是 dataframe 到 dict(json object) 的转换,我需要 dataframe 到 dataframe 的转换。
如果可能的话,我们将不胜感激 PySpark 中的解决方案。
【问题讨论】:
-
this 可能会有所帮助。它使用
to_json()函数。 -
嗨@samkart,你提到的答案为每一行创建了json,我需要将所有行合并为一行,格式为
list of json -
使用
collect_list()的帖子——基于上述内容,而不是在那里提交答案
标签: python json pandas apache-spark pyspark