【问题标题】:filtering an rdd based on presence of elements from an array根据数组中元素的存在过滤rdd
【发布时间】:2017-06-20 15:17:09
【问题描述】:

我有一个 rdd,它有 5000 万个元素,所有元素都是字符串。我必须过滤并制作一个具有以下任何术语的新 rdd:

val x = Array("apple", "mango", "papaya","pineapple")

所以,如果原始 rdd 中的字符串包含上述数组中的任何字符串,则它应该在过滤后的 rdd 中。 在scala中做这件事的有效方法是什么? 有没有一种方法可以做到这一点,还是我必须遍历每个元素并找出来?

【问题讨论】:

  • 我无法理解你的意思。元素是文档是什么意思?你的意思是一个字符串?什么是“具有以下任何术语的rdd”?你的意思是“字符串在哪里”包含或更多这些词?更多细节和更仔细的描述,请
  • @TheArchetypalPaul 我进行了编辑。请看。
  • 我正在支持@TheArchetypalPaul 我无法理解你的意思

标签: scala apache-spark filter rdd


【解决方案1】:

类似:

val strings = Set("apple", "mango", "papaya",v"pineapple")
rdd.filter(strings.contains(_))

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2020-07-15
    • 1970-01-01
    • 2015-01-17
    • 1970-01-01
    • 1970-01-01
    • 2017-07-03
    • 1970-01-01
    相关资源
    最近更新 更多