【发布时间】:2019-11-13 14:34:41
【问题描述】:
我有一个我想从中读取的 csv 的路径。此 csv 包括三列:“主题、键、值”我正在使用 spark 将此文件作为 csv 文件读取。该文件如下所示(lookupFile.csv):
Topic,Key,Value
fruit,aaa,apple
fruit,bbb,orange
animal,ccc,cat
animal,ddd,dog
//I'm reading the file as follows
val lookup = SparkSession.read.option("delimeter", ",").option("header", "true").csv(lookupFile)
我想获取我刚刚阅读的内容并返回具有以下属性的地图:
- 地图使用主题作为键
- 此映射的值是“Key”和“Value”列的映射
我希望我能得到如下所示的地图:
val result = Map("fruit" -> Map("aaa" -> "apple", "bbb" -> "orange"),
"animal" -> Map("ccc" -> "cat", "ddd" -> "dog"))
关于如何做到这一点的任何想法?
【问题讨论】:
标签: scala apache-spark rdd