【问题标题】:How to read CSV files with kafka?如何使用 kafka 读取 CSV 文件?
【发布时间】:2019-08-27 04:49:06
【问题描述】:

我想用 kafka 在 spark 上流式传输 CSV 文件。

所有文件都由另一个服务保存在 hdfs 上,我想使用 kafka 读取所有文件。类似于使用火花流所做的事情:

 val event1 = spark
   .readStream
   .schema(test_raw)
   .option("newFilesOnly", "true")
   .option("header", "true") 
   .option("sep", ",") 
   .csv(stream_path)

【问题讨论】:

  • 你可以用 Spark 读取 CSV,然后用它做任何你想做的事情。 Kafka 是一个消息代理。它用于发布/订阅、背压和其他通信目的。 Kafka 没有“CSV 读取”功能。
  • 感谢您提供的信息,但是 kafka 的 csv 连接器呢
  • 你试过以event1.writeStream.format("kafka")开头吗?

标签: scala csv apache-spark apache-kafka


【解决方案1】:

您正在寻找的连接器可能是这个:https://github.com/jcustenborder/kafka-connect-spooldir

【讨论】:

    猜你喜欢
    • 2019-02-21
    • 1970-01-01
    • 2010-12-08
    • 1970-01-01
    • 1970-01-01
    • 2023-03-18
    • 1970-01-01
    • 2018-09-07
    • 2014-10-09
    相关资源
    最近更新 更多