【发布时间】:2018-04-09 06:23:37
【问题描述】:
如何直接获取同时在 hdfs 上进入网站的数据?
【问题讨论】:
-
什么类型的数据?您已标记 Flume... 您之前的所有问题都包括 Flume... 它有什么问题?你有什么尝试?请edit您的问题包含更多详细信息...idownvotedbecau.se/noattempt
如何直接获取同时在 hdfs 上进入网站的数据?
【问题讨论】:
如果您打算进行高可用性读写,那么您可以使用 Hbase 来存储数据。
如果您使用的是 REST API,则可以将数据直接存储到 Hbase,因为它具有可以存储到 Hbase 表中的专用 Hbase REST API。
1) 线性和模块化的可扩展性。 2) 严格一致的读写。 3) 自动和可配置的表分片。
有关 HBase 的更多信息:- https://hbase.apache.org/
如果您想从任何来源将一些流式数据传输到 HDFS,您可以查看 confluent 平台(内置 kafka)并可以存储到 HDFS。
【讨论】:
这完全取决于您拥有哪些数据以及您在 Hadoop 之上维护额外工具的意愿。
如果您只是接受来自日志文件的事件,Flume、Fluentd 或 Filebeat 是您的最佳选择。
如果您正在接受客户端事件,例如点击或鼠标移动,那么您需要一些后端服务器来接受这些请求。例如,Flume TCP Source,但您可能希望在此服务前面使用某种类型的身份验证端点,以防止向您的事件通道发送随机外部消息。
您也可以使用 Kafka。 Kafka REST 代理(由 Confluent 提供)可用于接受 REST 请求并生成到 Kafka 主题。 Kafka HDFS Connect(也由 Confluent 提供)可以近乎实时地从 Kafka 消费并将消息发布到 HDFS,就像 Flume 一样
其他选项包括 Apache Nifi 或 Streamsets。同样,使用带有 HDFS 目标处理器的 TCP 或 HTTP 事件源侦听器
【讨论】: