为什么我们需要使用线程来运行 Kafka 消费者？我们需要多少线程？答案

【问题标题】：Why do we need to use threads for running Kafka consumers? And how many threads do we need?为什么我们需要使用线程来运行 Kafka 消费者？我们需要多少线程？
【发布时间】：2020-07-17 18:24:45
【问题描述】：

我对 Java 比较陌生（我对 Scala 有一些经验），目前正在尝试了解 Kafka。我在tutorial 中遇到了以下示例（我添加代码主要是为了参考）：

import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.common.errors.WakeupException;
import org.apache.kafka.common.serialization.StringDeserializer;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import java.time.Duration;
import java.util.Arrays;
import java.util.Collections;
import java.util.Properties;
import java.util.concurrent.CountDownLatch;

public class ConsumerDemoWithThread {

    public static void main(String[] args) {
        new ConsumerDemoWithThread().run();
    }

    private ConsumerDemoWithThread() {

    }

    private void run() {
        Logger logger = LoggerFactory.getLogger(ConsumerDemoWithThread.class.getName());

        String bootstrapServers = "127.0.0.1:9092";
        String groupId = "my-sixth-application";
        String topic = "first_topic";

        // latch for dealing with multiple threads
        CountDownLatch latch = new CountDownLatch(1);

        // create the consumer runnable
        logger.info("Creating the consumer thread");
        Runnable myConsumerRunnable = new ConsumerRunnable(
                bootstrapServers,
                groupId,
                topic,
                latch
        );

        // start the thread
        Thread myThread = new Thread(myConsumerRunnable);
        myThread.start();

        // add a shutdown hook
        Runtime.getRuntime().addShutdownHook(new Thread(() -> {
            logger.info("Caught shutdown hook");
            ((ConsumerRunnable) myConsumerRunnable).shutdown();
            try {
                latch.await();
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
            logger.info("Application has exited");
        }

        ));

        try {
            latch.await();
        } catch (InterruptedException e) {
            logger.error("Application got interrupted", e);
        } finally {
            logger.info("Application is closing");
        }
    }

    public class ConsumerRunnable implements Runnable {

        private final CountDownLatch latch;
        private final KafkaConsumer<String, String> consumer;
        private final Logger logger = LoggerFactory.getLogger(ConsumerRunnable.class.getName());

        public ConsumerRunnable(String bootstrapServers,
                                String groupId,
                                String topic,
                                CountDownLatch latch) {
            this.latch = latch;

            // create consumer configs
            Properties properties = new Properties();
            properties.setProperty(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, bootstrapServers);
            properties.setProperty(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
            properties.setProperty(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
            properties.setProperty(ConsumerConfig.GROUP_ID_CONFIG, groupId);
            properties.setProperty(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, "earliest");

            // create consumer
            consumer = new KafkaConsumer<String, String>(properties);
            // subscribe consumer to our topic(s)
            consumer.subscribe(Collections.singletonList(topic));
        }

        @Override
        public void run() {
            // poll for new data
            try {
                while (true) {
                    ConsumerRecords<String, String> records =
                            consumer.poll(Duration.ofMillis(100)); // new in Kafka 2.0.0

                    for (ConsumerRecord<String, String> record : records) {
                        logger.info("Key: " + record.key() + ", Value: " + record.value());
                        logger.info("Partition: " + record.partition() + ", Offset:" + record.offset());
                    }
                }
            } catch (WakeupException e) {
                logger.info("Received shutdown signal!");
            } finally {
                consumer.close();
                // tell our main code we're done with the consumer
                latch.countDown();
            }
        }

        public void shutdown() {
            // the wakeup() method is a special method to interrupt consumer.poll()
            // it will throw the exception WakeUpException
            consumer.wakeup();
        }
    }
}

我主要是想了解：

使用线程运行消费者？我（我认为 Kafka 抽象了消费者之间的负载分布）
当我们使用Thread myThread = new Thread(myConsumerRunnable); 时在单个线程中运行还是跨多个线程运行？
为什么我们要通过单独的线程触发关闭挂钩？（根据我检查该方法的理解，它似乎更像是 Java 的东西而不是 Kafka 的东西）

【问题讨论】：

看起来线程只是为了代表单个运行时的多个消费者，您通常会将它们放在单独的实例（微服务）中。

标签： java multithreading apache-kafka

【解决方案1】：

使用线程运行消费者有什么好处？我（我认为 Kafka 抽象了消费者之间的负载分布反正）

如您所见，消费者在run 方法中启动了一个无限循环。将它作为一个新线程启动可以让您在消费者已经处于活动状态时在主线程中做更多的事情。

当我们使用线程时 myThread = new Thread(myConsumerRunnable); > 是在单个线程中运行还是跨多个线程运行？

创建 Thread 对象尚未启动新线程。这是myThread.start();，新线程开始执行。您的示例程序有一个主线程和一个使用者线程。主线程实际上是通过CountDownLatch latch 等待关闭信号，因此可以说可以避开消费者线程。

为什么我们要通过单独的线程触发关闭挂钩？（据我了解从检查方法来看，它似乎更像是 Java 的东西而不是 Kafka 的东西）

这是一个java的东西。关闭钩子线程在关闭发生之前不会真正执行。见https://docs.oracle.com/javase/7/docs/api/java/lang/Runtime.html#addShutdownHook(java.lang.Thread)

【讨论】：