【问题标题】:Is it possible to join two instances of the same RDDs是否可以加入相同 RDD 的两个实例
【发布时间】:2015-01-13 11:46:26
【问题描述】:

所以,我有一个带有键值对 (SecondName, FirstName) 的 RDD。我们称之为SecondNameFirstName。现在我想为所有带有姓氏的名字创建 (FirstName, FirstName) 对。这种加入行得通吗?

SecondNameFirstName.join(SecondNameFirstName).map(x => x._2)

这个想法是,在进行连接之后,我将拥有 (SecondName, (FirstName, FirstName)) 的键值对。现在只取第二个元组,我将拥有 (FirstName, FirstName) 的键值对。

【问题讨论】:

  • 你能使用'apache-spark'标签吗?我通常会更正它,但我现在正在打电话

标签: scala mapreduce bigdata apache-spark


【解决方案1】:

为什么要麻烦加入rdd?您可以将初始 rdd 映射到所需的结果:

val firstFirst= secondFirst.map{case (second, first) => (first, first)}

【讨论】:

  • 这很简洁。知道如何在 python 中做同样的事情吗?
猜你喜欢
  • 2017-07-22
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2013-03-09
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多