【发布时间】:2016-10-14 14:35:46
【问题描述】:
我可以在没有 Spark Streaming 的情况下从 Kafka 读取消息吗?我的意思是仅使用 Spark Core 库进行批处理。 如果是的话,你能不能举一些例子来说明如何做到这一点。我正在使用 HDP 2.4、Kafka 0.9 和 Spark 1.6。
【问题讨论】:
标签: apache-spark apache-kafka hortonworks-data-platform
我可以在没有 Spark Streaming 的情况下从 Kafka 读取消息吗?我的意思是仅使用 Spark Core 库进行批处理。 如果是的话,你能不能举一些例子来说明如何做到这一点。我正在使用 HDP 2.4、Kafka 0.9 和 Spark 1.6。
【问题讨论】:
标签: apache-spark apache-kafka hortonworks-data-platform
spark streaming kafka api中有一个名为KafkaUtils的类。
从这个类中,您可以使用方法createRDD,它基本上是期望偏移量,它仅对非流式应用程序有用。
依赖jar:
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming-kafka_2.10</artifactId>
<version>1.6.0</version>
</dependency>
另外,检查 Kafka Connect,例如您想读取 Kafka 主题数据并将数据填充到 HDFS 中,使用 Kafka Connect 非常简单。
http://docs.confluent.io/3.0.0/connect/ http://www.confluent.io/product/connectors/
【讨论】: