【发布时间】:2017-01-24 17:18:05
【问题描述】:
据我了解,Spark 可以使用 Spark Streaming 分析流。 Kafka 可以接收来自多个来源的数据。 我不明白的是,如果我有一个 Kafka 集群从多个源接收数据,数据会发送到运行 Spark Streaming 的数据库吗?还是 Spark Streaming 在应用服务器上运行?
【问题讨论】:
-
您可以尝试将Spark集群部署在Kafka(Zookeeper)同一个集群中。我们在生产中的环境很少,一个是 Kafka + zookeeper(在同一个集群中)和 spark 独立的独立集群的主要优点是维护(版本升级,......)但我们也有在生产中运行的 Kafka zookeeper 和 Apache Storm 在同一个集群上(物理服务器100T)。您可以尝试将 Spark(作为独立的一个 jar)添加到您的 Kafka 集群(具有所有必要的配置端口,...)。
-
另外忘记添加,如果你是运行在 Kubernetes 或 Mesos 上,那么无论你使用哪个服务器,资源管理都会由它们来完成。
标签: apache-spark spark-streaming