【问题标题】:How can i send data from node-red to Hadoop?如何将数据从 node-red 发送到 Hadoop?
【发布时间】:2017-01-08 16:53:57
【问题描述】:

我需要一种机制来从 node-red 发送数据,以存储在 HDFS (Hadoop) 中。 我更喜欢流式传输数据。我正在考虑使用“websocket out”节点向其写入数据并使用 Flume 代理进行读取。

我是 node-red 的新手。

您能否告诉我我的方向是否正确,如果我不是,请澄清一些细节?任何替代方法也应该没问题。

更新:node-red 提供“bluemixhdfs”节点,它专门与 IBM bluemix 绑定,而我只使用 vanilla hadoop。

【问题讨论】:

  • @hardillb:我已经更新了这个问题。谢谢。
  • @Bhargav Rao :我用我的方法的具体信息更新了这个问题。请让社区来回答这个问题。谢谢。
  • @Marco99,该帖子被投票关闭的问题(参考:stackoverflow.com/posts/41535206/timeline)有两个重新打开评论。我感谢您为改进该职位所做的努力。您确实提到 我正在考虑使用“websocket out”节点将数据写入其中并使用 Flume 代理进行读取。,考虑editing 您的帖子并在代码中添加该尝试.我现在为你重新打开了帖子。
  • @Bhargav Rao:Node-red 是一个基于调色板的图形拖放工具。 Apache Flume 根据配置工作。如果需要,这些工具需要非常少的代码。该问题提出了针对特定/特定用例的设计方法。尽管我尽了最大的努力,我仍然无法改进这个问题。

标签: hadoop hadoop2 hadoop-streaming node-red


【解决方案1】:

我最近在我的一个小项目中遇到了类似的问题。所以我试着解释一下我的方法。

一点背景:在应用程序中,我必须对来自不同数据源的实时流数据进行一些处理。同时,我还需要存储流数据以备将来处理。

我使用 Apache Kafka 消息代理作为 Node-RED 和 HDFS 之间的集成代理(也用于 Apache Spark Stream 处理引擎)。

在 Node-RED 中,我使用 Kafka 节点将来自不同数据源的流数据发布到 Kafka 中的不同主题。 Node-RED flow with Streaming data sources and Apache Kafka

HDFS Sink Connector,一个 Kafka Connect 组件,用于将流数据存储到 HDFS。 Flow Architecture for Node-RED to HDFS and Spark Streaming using Kafka Message broker

当 IoT 传感器、股票市场数据、社交媒体数据、天气 api 等许多流数据源要使用 Node-RED 连接为单个流,然后想要使用 HDFS 进行处理时,也可以采用这种方法存储这些数据以供进一步处理。

【讨论】:

    【解决方案2】:

    恐怕我不是 Hadoop 专家,因此可能无法直接提供答案。然而,看起来 Kafka 支持 websockets,这应该是合理的性能。

    不过,根据您的架构,您应该注意 websocket 安全性。除非 NR 和 Hadoop 都在一个私有的安全网络上,否则 websocket 可能很难正确保护。

    我认为,只要每个事务的数据大小不太大(kb 而不是 Gb),websocket 的性能就会是合理的。您需要进行一些测试,因为影响 Node-RED 性能的因素太多,无法轻松预测它是否具有您需要的性能。

    Node-RED 支持多种类型的连接,因此如果 websocket 在您的架构中不起作用,还有很多其他类型的连接,例如 UNIX 管道、TCP 或 UDP 连接。

    【讨论】:

      猜你喜欢
      • 2020-03-30
      • 1970-01-01
      • 2015-03-13
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多