【发布时间】:2016-04-29 08:02:56
【问题描述】:
从 apache 网站下载后,我已经集成了 kafka 和 spark 流。但是,我想将 Datastax 用于我的大数据解决方案,我发现您可以轻松集成 Cassandra 和 Spark。
但我在最新版本的 Datastax 企业版中看不到任何 kafka 模块。如何在此处将 kafka 与 spark 流集成?
我想做的基本上是:
- 启动必要的代理和服务器
- 启动 kafka 生产者
- 启动 kafka 消费者
- 将 spark 流连接到 kafka 代理并从那里接收消息
然而,在谷歌快速搜索之后,我在任何地方都看不到 kafka 已与 datastax 企业合并。
我怎样才能做到这一点?我对datastax和kafka真的很陌生,所以我需要一些建议。语言偏好 - Python。 谢谢!
【问题讨论】:
-
您是否尝试使用 spark-streaming 从 kafka 读取数据?你为什么要关心它是否是 Datastax 企业的一部分?!
-
我正在尝试向 kafka 提供消息并从 spark 中读取它。卡夫卡->火花。而且我很在意,因为我不必担心外部配置、kafka 设置和连接依赖关系。这是 datastax 出名的主要原因。
-
这根本不是真的,datastax 采用了 cassandra,他们正在提供 DA 解决方案。无论如何,如果您不需要自己管理 kafka 代理,您可以使用 cloudera 的解决方案(不推荐),因为在这种特定情况下利大于弊。您的问题是关于集成(代码方面)。这些问题令人困惑,我认为您需要更具体才能获得更有帮助的答案
-
我的问题很简单,dse 中没有 apache kafka 模块。我们是否一定需要独立启动 kafka brokers 和 producer 并将其连接到 dse 版本的 spark 或者 dse 是否有更简单的方法?
-
DSE 不提供 kafka 设置 (AFAIK)。因此,您需要自己设置 kafka 代理,或者如前所述,通过另一个第三方提供商(如 cloudera)设置。设置好代理后,您可以在 bin 目录中运行生产者(它有一个可用于测试的轻量级生产者),只需将 spark-streaming 连接到您拥有的代理即可。我不知道这是否能回答你的问题,但如果我能提供任何进一步的帮助,请告诉我
标签: apache-spark apache-kafka spark-streaming datastax datastax-enterprise