【发布时间】:2017-02-27 23:55:44
【问题描述】:
我是 pyspark 的新手,谁能帮我汇总这些数据。
我在这样的文本文件中有 json 数据
{"a":1 , "b":"abc", "c":"abc2", "d":"abc3" , "e":"1234"}
{"a":1 , "b":"abc2", "c":"abc", "d":"abc" ,"e":"1234"}
{"a":1 , "b":"abc", "c":"abc2", "d":"abc3","e":"123"}
我想在 'b'、'c'、'd' 列上聚合数据,同时在 'a' 列中添加值,然后添加一个新列 'unique_e',这将在基础上给出唯一的 'e' 列值列'e'。
这是我想要的最终输出
{"a":2 , "b":"abc", "c":"abc2", "d":"abc3" , "unique_e":"2"}
{"a":1 , "b":"abc2", "c":"abc", "d":"abc" , "unique_e":"1"}
【问题讨论】:
标签: apache-spark pyspark