如何使用 Spark 流将数据从 Kafka 插入到 Kudu

【问题标题】：How to insert data from Kafka to Kudu using Spark streaming如何使用 Spark 流将数据从 Kafka 插入到 Kudu
【发布时间】：2019-01-18 01:35:40
【问题描述】：

我有一个监听 Kafka 主题的 Spark 流应用程序。获取数据时，我需要对其进行处理并发送到 Kudu。目前我正在使用org.apache.kudu.spark.kudu.KuduContext API 并使用数据框调用插入操作。为了从我的数据创建数据框，我需要调用collect()，以便我可以使用 sqlContext 创建数据框。

有没有办法在不调用collect() 的情况下创建数据框/将数据插入 Kudu，这当然很昂贵？

我们使用的是 Spark 1.6

【问题讨论】：

您是否考虑过为此使用 Kafka Connect？
我不熟悉这个，会读一下，谢谢。
在 kafka connect 中，我们可以定义如何转换主题数据的过程吗？在我们的例子中，我们需要在数据准备好用于 kudu 之前进行一些计算和处理。
要遵循的模式是流处理应用程序（例如 Kafka Streams、KSQL 等）将转换应用于数据并将其写回 Kafka 主题。然后，Kafka Connect 将该主题流式传输到目标。职责分离 - 更易于开发、操作、扩展等 :)

标签： apache-spark apache-kafka spark-streaming apache-kudu

【解决方案1】：

Spark 的 Kudu 接收器现在支持结构化流：https://issues.apache.org/jira/browse/KUDU-2640

【讨论】：

猜你喜欢

2020-07-07
2020-03-28
2017-05-13
2020-08-21
2017-12-06
2019-04-23
2019-07-21
1970-01-01

相关资源

下载 2023-02-05
下载 2023-02-06
下载 2022-12-17

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode