【发布时间】:2019-08-27 04:49:06
【问题描述】:
我想用 kafka 在 spark 上流式传输 CSV 文件。
所有文件都由另一个服务保存在 hdfs 上,我想使用 kafka 读取所有文件。类似于使用火花流所做的事情:
val event1 = spark
.readStream
.schema(test_raw)
.option("newFilesOnly", "true")
.option("header", "true")
.option("sep", ",")
.csv(stream_path)
【问题讨论】:
-
你可以用 Spark 读取 CSV,然后用它做任何你想做的事情。 Kafka 是一个消息代理。它用于发布/订阅、背压和其他通信目的。 Kafka 没有“CSV 读取”功能。
-
感谢您提供的信息,但是 kafka 的 csv 连接器呢
-
你试过以
event1.writeStream.format("kafka")开头吗?
标签: scala csv apache-spark apache-kafka