【问题标题】:How to integrate kafka and spark streaming in Datastax Enterprise Edition?Datastax企业版如何集成kafka和spark流?
【发布时间】:2016-04-29 08:02:56
【问题描述】:

从 apache 网站下载后,我已经集成了 kafka 和 spark 流。但是,我想将 Datastax 用于我的大数据解决方案,我发现您可以轻松集成 Cassandra 和 Spark。

但我在最新版本的 Datastax 企业版中看不到任何 kafka 模块。如何在此处将 kafka 与 spark 流集成?

我想做的基本上是:

  • 启动必要的代理和服务器
  • 启动 kafka 生产者
  • 启动 kafka 消费者
  • 将 spark 流连接到 kafka 代理并从那里接收消息

然而,在谷歌快速搜索之后,我在任何地方都看不到 kafka 已与 datastax 企业合并。

我怎样才能做到这一点?我对datastax和kafka真的很陌生,所以我需要一些建议。语言偏好 - Python。 谢谢!

【问题讨论】:

  • 您是否尝试使用 spark-streaming 从 kafka 读取数据?你为什么要关心它是否是 Datastax 企业的一部分?!
  • 我正在尝试向 kafka 提供消息并从 spark 中读取它。卡夫卡->火花。而且我很在意,因为我不必担心外部配置、kafka 设置和连接依赖关系。这是 datastax 出名的主要原因。
  • 这根本不是真的,datastax 采用了 cassandra,他们正在提供 DA 解决方案。无论如何,如果您不需要自己管理 kafka 代理,您可以使用 cloudera 的解决方案(不推荐),因为在这种特定情况下利大于弊。您的问题是关于集成(代码方面)。这些问题令人困惑,我认为您需要更具体才能获得更有帮助的答案
  • 我的问题很简单,dse 中没有 apache kafka 模块。我们是否一定需要独立启动 kafka brokers 和 producer 并将其连接到 dse 版本的 spark 或者 dse 是否有更简单的方法?
  • DSE 不提供 kafka 设置 (AFAIK)。因此,您需要自己设置 kafka 代理,或者如前所述,通过另一个第三方提供商(如 cloudera)设置。设置好代理后,您可以在 bin 目录中运行生产者(它有一个可用于测试的轻量级生产者),只需将 spark-streaming 连接到您拥有的代理即可。我不知道这是否能回答你的问题,但如果我能提供任何进一步的帮助,请告诉我

标签: apache-spark apache-kafka spark-streaming datastax datastax-enterprise


【解决方案1】:

好问题。 DSE 没有开箱即用地包含 Kafka,您必须自己设置 kafka,然后设置 spark 流作业以从 kafka 读取。由于 DSE 确实捆绑了 spark,因此请使用 DSE Spark 来运行您的 spark 流式传输作业。

您可以使用直接的 kafka API 或 kafka 接收器,更多细节here 权衡取舍。 TL;DR 直接 api 不需要 WAL 或 zookeeper 用于 HA。

以下是 Cary Bourgeois 如何配置 Kafka 以使用 DSE 的示例:

https://github.com/CaryBourgeois/DSE-Spark-Streaming/tree/master

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2017-06-30
    • 2017-11-29
    • 2020-08-21
    • 2021-01-03
    • 2018-12-11
    • 2023-03-30
    • 1970-01-01
    • 2017-12-06
    相关资源
    最近更新 更多