【发布时间】:2015-05-01 15:59:23
【问题描述】:
我有一个这样的文件,我在 PythonRDD 中读过。
[(u'id1', u'11|12|13|14|15|16|17|18|,21|22|23|24|25|26|27|28|), (u'id2', u'31|32|33|34|35|36|37|38|,41|42|43|44|45|46|47|28|)]
表示: RDD 是一个pairRDD,其中每个key 是一个用户id(id1, id2),每个value 有多个记录(用逗号分隔),每个记录有多个项目(用管道分隔) )
我想减少文件,以便每个 id: (id1 和 id2) 将发出与记录数一样多的行,用户 id 作为键,第 7 个字段/第 5 个字段,第 6 个字段作为值
id1 => 17/15, 16
id1 => 27/25, 26
id3 => 37/35, 36
id4 => 47/45, 46
感谢任何帮助
【问题讨论】:
标签: python apache-spark