【发布时间】:2019-06-02 11:57:57
【问题描述】:
我是 pyspark 的新手。我的要求是从嵌套的 json 文件中获取/提取属性名称。我尝试使用从 pandas 包导入的 json_normalize。它适用于直接属性,但从不获取 json 数组属性中的属性。我的 json 没有静态结构。它因我们收到的每份文件而异。有人可以帮我解释下面提供的小例子吗,
{
"id":"1",
"name":"a",
"salaries":[
{
"salary":"1000"
},
{
"salary":"5000"
}
],
"states":{
"state":"Karnataka",
"cities":[
{
"city":"Bangalore"
},
{
"city":"Mysore"
}
],
"state":"Tamil Nadu",
"cities":[
{
"city":"Chennai"
},
{
"city":"Coimbatore"
}
]
}
}
特别是对于 json 数组元素..
预期输出: ID 姓名 工资.salary 状态.state states.cities.city``
【问题讨论】:
标签: python apache-spark pyspark