【发布时间】:2017-06-20 15:17:09
【问题描述】:
我有一个 rdd,它有 5000 万个元素,所有元素都是字符串。我必须过滤并制作一个具有以下任何术语的新 rdd:
val x = Array("apple", "mango", "papaya","pineapple")
所以,如果原始 rdd 中的字符串包含上述数组中的任何字符串,则它应该在过滤后的 rdd 中。 在scala中做这件事的有效方法是什么? 有没有一种方法可以做到这一点,还是我必须遍历每个元素并找出来?
【问题讨论】:
-
我无法理解你的意思。元素是文档是什么意思?你的意思是一个字符串?什么是“具有以下任何术语的rdd”?你的意思是“字符串在哪里”包含或更多这些词?更多细节和更仔细的描述,请
-
@TheArchetypalPaul 我进行了编辑。请看。
-
我正在支持@TheArchetypalPaul 我无法理解你的意思
标签: scala apache-spark filter rdd