【发布时间】:2021-04-10 06:05:57
【问题描述】:
我对 Spark 世界非常陌生。我正在尝试为以下用例编写优化的解决方案:
- 需要从 Kafka 读取流数据,主要是一些压缩文件的 S3 文件路径。
- 从上面收到的文件路径中读取压缩文件并对其进行处理并将其存储回某个 S3 存储桶。
我能够阅读 Kafka 主题并获取文件路径,但不确定现在如何阅读此文件路径? spark.read.binaryFile(filePath) 之类的东西。
任何帮助或指导将不胜感激。
【问题讨论】:
-
谢谢迈克。我认为上述解决方案适用于 Kafka。但我正在尝试使用火花流而不是结构化流,因为流源稍后也可能不同。读取流后,流中的每条记录都应该是存储在 S3 中的实际文件的文件路径。接下来我必须从这个文件路径(非结构化)读取文件并处理它并最终存储它。
标签: apache-kafka spark-streaming