直接从网站获取数据到 hdfs答案

【问题标题】：Getting data directly from a website to a hdfs直接从网站获取数据到 hdfs
【发布时间】：2018-04-09 06:23:37
【问题描述】：

如何直接获取同时在 hdfs 上进入网站的数据？

【问题讨论】：

什么类型的数据？您已标记 Flume... 您之前的所有问题都包括 Flume... 它有什么问题？你有什么尝试？请edit您的问题包含更多详细信息...idownvotedbecau.se/noattempt

【解决方案1】：

如果您打算进行高可用性读写，那么您可以使用 Hbase 来存储数据。

如果您使用的是 REST API，则可以将数据直接存储到 Hbase，因为它具有可以存储到 Hbase 表中的专用 Hbase REST API。

1) 线性和模块化的可扩展性。 2) 严格一致的读写。 3) 自动和可配置的表分片。

有关 HBase 的更多信息：- https://hbase.apache.org/

如果您想从任何来源将一些流式数据传输到 HDFS，您可以查看 confluent 平台（内置 kafka）并可以存储到 HDFS。

【讨论】：

我认为您误解了这个问题。不是如何从 Hadoop 获取数据到网站上。但是从一个网站变成了HDFS。 Confluent 不提供用于网站操作的 Javascript 驱动程序，Kafka 也不应该暴露在公共互联网上
我想我提到了 Hbase 将数据从网站保存到 HDFS。

【解决方案2】：

这完全取决于您拥有哪些数据以及您在 Hadoop 之上维护额外工具的意愿。

如果您只是接受来自日志文件的事件，Flume、Fluentd 或 Filebeat 是您的最佳选择。

如果您正在接受客户端事件，例如点击或鼠标移动，那么您需要一些后端服务器来接受这些请求。例如，Flume TCP Source，但您可能希望在此服务前面使用某种类型的身份验证端点，以防止向您的事件通道发送随机外部消息。

您也可以使用 Kafka。 Kafka REST 代理（由 Confluent 提供）可用于接受 REST 请求并生成到 Kafka 主题。 Kafka HDFS Connect（也由 Confluent 提供）可以近乎实时地从 Kafka 消费并将消息发布到 HDFS，就像 Flume 一样

其他选项包括 Apache Nifi 或 Streamsets。同样，使用带有 HDFS 目标处理器的 TCP 或 HTTP 事件源侦听器

【讨论】：