【问题标题】:Getting data directly from a website to a hdfs直接从网站获取数据到 hdfs
【发布时间】:2018-04-09 06:23:37
【问题描述】:

如何直接获取同时在 hdfs 上进入网站的数据?

【问题讨论】:

  • 什么类型的数据?您已标记 Flume... 您之前的所有问题都包括 Flume... 它有什么问题?你有什么尝试?请edit您的问题包含更多详细信息...idownvotedbecau.se/noattempt

标签: hadoop server hdfs flume


【解决方案1】:

如果您打算进行高可用性读写,那么您可以使用 Hbase 来存储数据。

如果您使用的是 REST API,则可以将数据直接存储到 Hbase,因为它具有可以存储到 Hbase 表中的专用 Hbase REST API。

1) 线性和模块化的可扩展性。 2) 严格一致的读写。 3) 自动和可配置的表分片。

有关 HBase 的更多信息:- https://hbase.apache.org/

如果您想从任何来源将一些流式数据传输到 HDFS,您可以查看 confluent 平台(内置 kafka)并可以存储到 HDFS。

【讨论】:

  • 我认为您误解了这个问题。不是如何从 Hadoop 获取数据到网站上。但是从一个网站变成了HDFS。 Confluent 不提供用于网站操作的 Javascript 驱动程序,Kafka 也不应该暴露在公共互联网上
  • 我想我提到了 Hbase 将数据从网站保存到 HDFS。
【解决方案2】:

这完全取决于您拥有哪些数据以及您在 Hadoop 之上维护额外工具的意愿。

如果您只是接受来自日志文件的事件,Flume、Fluentd 或 Filebeat 是您的最佳选择。

如果您正在接受客户端事件,例如点击或鼠标移动,那么您需要一些后端服务器来接受这些请求。例如,Flume TCP Source,但您可能希望在此服务前面使用某种类型的身份验证端点,以防止向您的事件通道发送随机外部消息。

您也可以使用 Kafka。 Kafka REST 代理(由 Confluent 提供)可用于接受 REST 请求并生成到 Kafka 主题。 Kafka HDFS Connect(也由 Confluent 提供)可以近乎实时地从 Kafka 消费并将消息发布到 HDFS,就像 Flume 一样

其他选项包括 Apache Nifi 或 Streamsets。同样,使用带有 HDFS 目标处理器的 TCP 或 HTTP 事件源侦听器

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2020-08-05
    • 1970-01-01
    • 2013-01-28
    相关资源
    最近更新 更多