【发布时间】:2019-02-05 02:09:23
【问题描述】:
考虑一下这个 Kafka Streams 驱动程序
public class TestDriver {
private static final String SOURCE = "SOURCE";
public static void main(String[] args) throws Exception {
ProtoDeserializer<Message> protoDeserializer = new ProtoDeserializer<>(Message.parser());
ProtoSerializer<Message> protoSerializer = new ProtoSerializer<>();
StringDeserializer stringDerializer = new StringDeserializer();
StringSerializer stringSerializer = new StringSerializer();
Topology topologyBuilder = new Topology();
topologyBuilder.addSource(SOURCE, stringDerializer, protoDeserializer, "input-messages")
.addProcessor(DummyProcessor.NAME, DummyProcessor::new, SOURCE)
.addSink("MAIN", "output-messages", stringSerializer, protoSerializer, DummyProcessor.NAME)
;
KafkaStreams streams = new KafkaStreams(topologyBuilder, getConfig());
streams.cleanUp();
streams.start();
System.out.println(streams.toString());
Runtime.getRuntime().addShutdownHook(new Thread(streams::close));
}
private static Properties getConfig() {
Properties config = new Properties();
config.put(StreamsConfig.CLIENT_ID_CONFIG, "test.stream-processor");
config.put(StreamsConfig.APPLICATION_ID_CONFIG, "test.stream-processor");
config.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "broker-1:9092,broker-2:9092,broker-3:9092");
config.put(StreamsConfig.REPLICATION_FACTOR_CONFIG, 3);
config.put(StreamsConfig.NUM_STREAM_THREADS_CONFIG, 10);
config.put(StreamsConfig.DEFAULT_TIMESTAMP_EXTRACTOR_CLASS_CONFIG, WallclockTimestampExtractor.class);
return config;
}
}
问题是,当没有处理器添加到拓扑中时(不包括.addProcessor()),从源到接收器的处理速度很好(意味着我目前产生25k消息/秒并且捕获没有问题上)。
但是,当添加DummyProcessor 时,它会突然处理 3k messages/s max(600k 字节)。
DummyProcessor 基本上什么都不做:
public class DummyProcessor extends AbstractProcessor<String, Message> {
public static final String NAME = "DUMMY_PROCESSOR";
public void process(String key, Message originalMessage) {
context().forward(key, originalMessage);
context().commit();
}
}
是否会为 Streams 性能添加单个“空”处理器这样的开销?它的原因是什么? Kafka Streams 是否如此智能,以至于当没有处理器时它不执行 protobuf serde 并且只转发接收到的数据?无论如何要加快速度?
以这样的速度,我需要 x 数千个可用的 CPU 线程才能处理我的所有数据,因为 25k 消息/秒是我拥有的 1% 的数据。听起来很多。
【问题讨论】:
-
删除
context().commit();会提高性能吗? -
@wardziniak 是的,每秒有 33 万条消息。我虽然提交()对于流工作是必要的(?)。但是,这似乎是瓶颈。
标签: java apache-kafka apache-kafka-streams