【发布时间】:2015-08-26 01:20:00
【问题描述】:
我有一些数据需要在火花流中分类。分类键值在程序开始时加载到 HashMap 中。因此,每个传入的数据包都需要与这些键进行比较并进行相应的标记。
我意识到 spark 具有称为广播变量的变量和用于分发对象的累加器。教程中的示例使用简单的变量,例如 etc。
如何使用 HashMap 在所有 spark 工作人员上共享我的 HashMap。或者,有没有更好的方法来做到这一点?
我正在用 Java 编写我的 spark 流应用程序。
【问题讨论】:
-
你可以用同样的方式广播任何可序列化的对象。
-
th 键 n 值 n 它们的内部成员应该是可序列化的,或者根据映射器表示法没有设置器/标记的瞬态
标签: java apache-spark spark-streaming