Datastax企业版如何集成kafka和spark流？答案

【问题标题】：How to integrate kafka and spark streaming in Datastax Enterprise Edition?Datastax企业版如何集成kafka和spark流？
【发布时间】：2016-04-29 08:02:56
【问题描述】：

从 apache 网站下载后，我已经集成了 kafka 和 spark 流。但是，我想将 Datastax 用于我的大数据解决方案，我发现您可以轻松集成 Cassandra 和 Spark。

但我在最新版本的 Datastax 企业版中看不到任何 kafka 模块。如何在此处将 kafka 与 spark 流集成？

我想做的基本上是：

启动必要的代理和服务器
启动 kafka 生产者
启动 kafka 消费者
将 spark 流连接到 kafka 代理并从那里接收消息

然而，在谷歌快速搜索之后，我在任何地方都看不到 kafka 已与 datastax 企业合并。

我怎样才能做到这一点？我对datastax和kafka真的很陌生，所以我需要一些建议。语言偏好 - Python。谢谢！

【问题讨论】：

您是否尝试使用 spark-streaming 从 kafka 读取数据？你为什么要关心它是否是 Datastax 企业的一部分？！
我正在尝试向 kafka 提供消息并从 spark 中读取它。卡夫卡->火花。而且我很在意，因为我不必担心外部配置、kafka 设置和连接依赖关系。这是 datastax 出名的主要原因。
这根本不是真的，datastax 采用了 cassandra，他们正在提供 DA 解决方案。无论如何，如果您不需要自己管理 kafka 代理，您可以使用 cloudera 的解决方案（不推荐），因为在这种特定情况下利大于弊。您的问题是关于集成（代码方面）。这些问题令人困惑，我认为您需要更具体才能获得更有帮助的答案
我的问题很简单，dse 中没有 apache kafka 模块。我们是否一定需要独立启动 kafka brokers 和 producer 并将其连接到 dse 版本的 spark 或者 dse 是否有更简单的方法？
DSE 不提供 kafka 设置 (AFAIK)。因此，您需要自己设置 kafka 代理，或者如前所述，通过另一个第三方提供商（如 cloudera）设置。设置好代理后，您可以在 bin 目录中运行生产者（它有一个可用于测试的轻量级生产者），只需将 spark-streaming 连接到您拥有的代理即可。我不知道这是否能回答你的问题，但如果我能提供任何进一步的帮助，请告诉我

标签： apache-spark apache-kafka spark-streaming datastax datastax-enterprise

【解决方案1】：

好问题。 DSE 没有开箱即用地包含 Kafka，您必须自己设置 kafka，然后设置 spark 流作业以从 kafka 读取。由于 DSE 确实捆绑了 spark，因此请使用 DSE Spark 来运行您的 spark 流式传输作业。

您可以使用直接的 kafka API 或 kafka 接收器，更多细节here 权衡取舍。 TL；DR 直接 api 不需要 WAL 或 zookeeper 用于 HA。

以下是 Cary Bourgeois 如何配置 Kafka 以使用 DSE 的示例：

https://github.com/CaryBourgeois/DSE-Spark-Streaming/tree/master

【讨论】：