仅处理 Kafka 流中的第一条消息答案

【问题标题】：Only first message in Kafka stream gets processed仅处理 Kafka 流中的第一条消息
【发布时间】：2017-04-18 16:02:03
【问题描述】：

在 Spark 中，我从 Kafka 创建了一个批处理时间为 5 秒的流。在此期间可能会收到许多消息，我想单独处理每条消息，但按照我目前的逻辑，似乎只处理每批的第一条消息。

val stream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, params, topics)

val messages = stream.map((x$2) => x$2._2)

messages.foreachRDD { rdd =>
    if(!rdd.isEmpty) {
        val message = rdd.map(parse)
        println(message.collect())
    }
}

parse 函数只是将 Json 消息中的相关字段提取到一个元组中。

我可以深入了解分区并以这种方式单独处理每条消息：

messages.foreachRDD { rdd =>
    if(!rdd.isEmpty) {
        rdd.foreachPartition { partition =>
            partition.foreach{msg =>
                val message = parse(msg)
                println(message)
            }
        }
    }
}

但我确信有一种方法可以保持在 RDD 级别。在第一个示例中我做错了什么？

我正在使用 spark 2.0.0、scala 2.11.8 和 spark streaming kafka 0.8。

【问题讨论】：

标签： scala apache-spark apache-kafka spark-streaming

【解决方案1】：

这是示例流应用程序，它将批处理的每条消息转换为每个循环内部的大写字母并打印它们。试试这个示例应用程序，然后重新检查您的应用程序。希望这会有所帮助。

object SparkKafkaStreaming {

def main(args: Array[String]) {

//Broker and topic
val brokers = "localhost:9092"
val topic = "myTopic"

//Create context with 5 second batch interval
val sparkConf = new SparkConf().setAppName("SparkKafkaStreaming").setMaster("local[2]")
val ssc = new StreamingContext(sparkConf, Seconds(5))

//Create direct kafka stream with brokers and topics
val topicsSet = Set[String](topic)
val kafkaParams = Map[String, String]("metadata.broker.list" -> brokers)
val msgStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topicsSet)

//Message
val msg = msgStream.map(_._2)    
msg.print()

//For each
msg.foreachRDD { rdd =>
  if (!rdd.isEmpty) {
     println("-----Convert Message to UpperCase-----")
    //convert messages to upper case
    rdd.map { x => x.toUpperCase() }.collect().foreach(println)
  } else {
    println("No Message Received")
  }
}

//Start the computation
ssc.start()
ssc.awaitTermination()
  }
}

【讨论】：

这似乎与我在示例中提出的逻辑相同，只是在它周围有更多上下文。如果结构不是问题，您是否可以想到此代码仅处理每批的第一条消息的情况？
collect() 方法返回数组。你可以试试“message.collect().foreach(println)”而不是“println(message.collect())”看看。如果您仍然没有打印所有消息，请重新检查您的“解析”方法。您可以通过运行此示例程序并从 Kafka 命令行生产者发送消息来进行验证。
我现在明白了。缺少的是 foreach - 我添加了它，现在每条消息都已处理。