【发布时间】:2017-10-29 15:20:01
【问题描述】:
我正在使用 Pyspark,并且必须使用 RDD(不是数据帧)来执行以下操作:
我有两个 RDD,rdd1,包含 100 多个带名称的字段和 rdd2,包含一个名为“city”的字段。 rdd1 和 rdd2 具有相同的行数(相同的长度)。
rdd1 是这样的:
Row(name="Jack", age=35, state="California", ...)
Row(name"Jane", age=29, state="Florida", ...)
...
rdd2 是这样的:
Row(city="LA")
Row(city="Miami")
...
我希望 rdd1 变成:
Row(name="Jack", age=35, state="California", ..., city="LA")
...
我尝试过的一切都失败了。有什么建议吗?
【问题讨论】:
标签: python apache-spark pyspark rdd