HashMap 作为 Spark Streaming 中的广播变量？答案

【问题标题】：HashMap as a Broadcast Variable in Spark Streaming?HashMap 作为 Spark Streaming 中的广播变量？
【发布时间】：2015-08-26 01:20:00
【问题描述】：

我有一些数据需要在火花流中分类。分类键值在程序开始时加载到 HashMap 中。因此，每个传入的数据包都需要与这些键进行比较并进行相应的标记。

我意识到 spark 具有称为广播变量的变量和用于分发对象的累加器。教程中的示例使用简单的变量，例如 etc。

如何使用 HashMap 在所有 spark 工作人员上共享我的 HashMap。或者，有没有更好的方法来做到这一点？

我正在用 Java 编写我的 spark 流应用程序。

【问题讨论】：

你可以用同样的方式广播任何可序列化的对象。
th 键 n 值 n 它们的内部成员应该是可序列化的，或者根据映射器表示法没有设置器/标记的瞬态

标签： java apache-spark spark-streaming

【解决方案1】：

在 spark 中，您可以以相同的方式广播任何可序列化的对象。这是最好的方法，因为您只需向工作人员发送一次数据，然后您就可以在任何任务中使用它。

斯卡拉：

val br = ssc.sparkContext.broadcast(Map(1 -> 2))

Java：

Broadcast<HashMap<String, String>> br = ssc.sparkContext().broadcast(new HashMap<>());

【讨论】：

这将是一个更好的答案，背后有一些解释，而不仅仅是代码。
还有更多内容吗？我使用了一个广播变量，它工作了一次，但在随后的调用中，该变量返回 null。经过一番研究，我在 cloudera 的论坛 (community.cloudera.com/t5/Advanced-Analytics-Apache-Spark/…) 上发现了这篇文章，其中提到没有广播变量作为类成员。
@dmux 问题是广播变量不能是静态的。它必须是成员变量。

【解决方案2】：

这是一个更好的例子，说明如何在 Java 中广播 HashMap：

在您的 Spark 应用程序中，您将创建或加载一个 HashMap。然后使用 Sparksession 广播该 HashMap。

HashMap<String,String> bcMap = new HashMap();
bcMap.put("key1","val1");
bcMap.put("key2","val2");

Broadcast<HashMap> bcVar = this.sparkSession.sparkContext().broadcast(bncFlowConflg, classTag(HashMap.class));

你需要下面的类来创建一个classTag：

private static <T> ClassTag<T> classTag(Class<T> clazz) {
    return scala.reflect.ClassManifestFactory.fromClass(clazz);
}

您可以参考Spark函数中的广播，例如如下map：

HashMap<String,String> bcVal = bcVar .getValue();

【讨论】：

你的帖子是我的救星。令人讨厌的证据让我很难过。
很高兴能帮上忙！