【发布时间】:2017-08-19 08:40:40
【问题描述】:
我有这个要过滤的 RDD,它看起来像这样:
text (06.07.03.216) COPYRIGHT © skdjh 2000-2015
File 160614_54554.vf Database 53643_csc Interface 574 zn 65
Start Date 14/06/2016 00:00:00:000
End Date 14/06/2016 00:14:59:999
State "S587654"
End of field Start of field Connection duration
我想过滤前 6 行是这样的:
End of field Start of field Connection duration
实现这一目标的最有效方法是什么?我想过。 选项1:创建一个包含此行的新 rdd 并使用 join 过滤它们 选项2:创建一个可以过滤此行的函数 最好的方法是什么? 谢谢!
【问题讨论】:
-
你能提供一个更具体的例子吗...我没有按照你想要的在这里...
标签: join apache-spark filter rdd