【发布时间】:2017-10-31 11:33:49
【问题描述】:
我正在尝试使用 spark 编写 JSON 文件。有些键具有null 作为值。这些在DataSet 中显示得很好,但是当我编写文件时,密钥被丢弃。我如何确保它们被保留?
写入文件的代码:
ddp.coalesce(20).write().mode("overwrite").json("hdfs://localhost:9000/user/dedupe_employee");
来自源的部分 JSON 数据:
"event_header": {
"accept_language": null,
"app_id": "App_ID",
"app_name": null,
"client_ip_address": "IP",
"event_id": "ID",
"event_timestamp": null,
"offering_id": "Offering",
"server_ip_address": "IP",
"server_timestamp": 1492565987565,
"topic_name": "Topic",
"version": "1.0"
}
输出:
"event_header": {
"app_id": "App_ID",
"client_ip_address": "IP",
"event_id": "ID",
"offering_id": "Offering",
"server_ip_address": "IP",
"server_timestamp": 1492565987565,
"topic_name": "Topic",
"version": "1.0"
}
在上面的示例中,键 accept_language、app_name 和 event_timestamp 已被删除。
【问题讨论】:
标签: java json apache-spark apache-spark-sql