【发布时间】:2019-08-26 10:16:53
【问题描述】:
我是新手,我有以下格式的数据
类别、子类别、名称
Food,Thai,Restaurant A
Food,Thai,Restaurant B
Food, Chinese, Restaurant C
Lodging, Hotel, Hotel A
我希望数据采用以下格式
{Category : Food , Subcategories : [ {subcategory : Thai , names : [Restaurant A , Restaurant B] }, {subcategory : Chinese , names : [Restaurant C]}]}
{Category : Hotel , Subcategories : [ {subcategory : Lodging , names : [Hotel A] }]}
有人可以帮助我如何使用 pyspark RDD 解决这个问题吗?
谢谢!
【问题讨论】:
标签: json apache-spark pyspark apache-spark-sql rdd