【发布时间】:2017-06-26 15:50:57
【问题描述】:
我有一个类似 csv 的输入文件,如下所示:
"2017-06-01T01:01:01Z";"{\"name\":\"aaa\",\"properties\":{"\"propA\":\"some value\",\"propB\":\"other value\"}}"
"2017-06-01T01:01:01Z";"{\"name\":\"bbb\",\"properties\":{"\"propB\":\"some value\","\"propC\":\"some value\",\"propD\":\"other value\"}}"
我想得到这样的 json 字符串,以便我可以从纯 json 字符串创建数据框:
[{
"createdTime": "...",
"value":{
"name":"...",
"properties": {
"propA":"...",
"propB":"..."
}
}
},{
"createdTime": "...",
"value":{
"name":"...",
"properties": {
"propB":"...",
"propC":"...",
"propD":"..."
}
}
}]
这是半结构化数据。某些行可能具有属性 A,但其他行可能具有属性 A。
如何在 Spark 中使用 Scalar 执行此操作?
【问题讨论】:
标签: apache-spark scalar