【发布时间】:2018-08-18 08:35:07
【问题描述】:
如何转换这种数据
"Row-Key-001, K1, 10, A2, 20, K3, 30, B4, 42, K5, 19, C20, 20"
"Row-Key-002, X1, 20, Y6, 10, Z15, 35, X16, 42"
"Row-Key-003, L4, 30, M10, 5, N12, 38, O14, 41, P13, 8"
到使用 Scala 的 spark RDD,因此我们可以得到:
Row-Key-001, K1
Row-Key-001, A2
Row-Key-001, K3
Row-Key-001, B4
Row-Key-001, K5
Row-Key-001, C20
Row-Key-002, X1
Row-Key-002, Y6
Row-Key-002, Z15
Row-Key-002, X16
Row-Key-003, L4
Row-Key-003, M10
Row-Key-003, N12
Row-Key-003, O14
Row-Key-003, P13
我认为我们可以拆分输入以获取行数组,然后再次拆分“,”上的每一行,然后将每行的第一个元素作为键添加到 Map,每个备用元素作为值。
但需要帮助才能在 Scala 中实现。
【问题讨论】:
标签: scala apache-spark dictionary rdd