【发布时间】:2016-07-21 20:48:37
【问题描述】:
我有一个 Spark 流式传输作业。我想对我的输入 RDD 应用过滤器。
我想在每个 spark 流批处理期间每次从 Hbase 动态获取过滤条件。
我如何做到这一点?
我可以使用 Map 分区创建连接对象一次。
但是使用火花过滤器我如何实现相同的目标?
【问题讨论】:
-
根据您的过滤条件,您可以使用
join来实现它。您必须给出一个更完整的示例来说明您正在尝试做什么,但如果连接的左侧是您的 Spark Stream,则右侧将是一组标准。如果没有任何条件适用,则连接不会产生任何行——它会过滤它们。
标签: filter apache-spark streaming dynamically-generated