【发布时间】:2017-04-05 20:57:01
【问题描述】:
我使用以下代码创建 6 个输入 DStream,这些输入 DStream 使用直接方法从 Kafka 的 6 个分区主题中读取,我发现即使为流指定相同的组 ID,我也会得到重复 6 次的数据。如果我只创建 3 个 DStream,我会得到重复 3 次的数据,依此类推....
numStreams = 6
kafkaStreams = [KafkaUtils.createDirectStream(ssc, ["send6partitions"], {
"metadata.broker.list": brokers,
"fetch.message.max.bytes": "20971520",
"spark.streaming.blockInterval" : "2000ms",
"group.id" : "the-same"},
valueDecoder = decodeValue, keyDecoder = decode_key) for _ in range (numStreams)]
kvs = ssc.union(*kafkaStreams)
我在这里做错了什么?
【问题讨论】:
标签: python apache-spark streaming apache-kafka