如何使用 kafka 读取 CSV 文件？答案

【问题标题】：How to read CSV files with kafka?如何使用 kafka 读取 CSV 文件？
【发布时间】：2019-08-27 04:49:06
【问题描述】：

我想用 kafka 在 spark 上流式传输 CSV 文件。

所有文件都由另一个服务保存在 hdfs 上，我想使用 kafka 读取所有文件。类似于使用火花流所做的事情：

 val event1 = spark
   .readStream
   .schema(test_raw)
   .option("newFilesOnly", "true")
   .option("header", "true") 
   .option("sep", ",") 
   .csv(stream_path)

【问题讨论】：

你可以用 Spark 读取 CSV，然后用它做任何你想做的事情。 Kafka 是一个消息代理。它用于发布/订阅、背压和其他通信目的。 Kafka 没有“CSV 读取”功能。
感谢您提供的信息，但是 kafka 的 csv 连接器呢
你试过以event1.writeStream.format("kafka")开头吗？

标签： scala csv apache-spark apache-kafka

【解决方案1】：

您正在寻找的连接器可能是这个：https://github.com/jcustenborder/kafka-connect-spooldir

【讨论】：