【发布时间】:2014-11-27 21:56:30
【问题描述】:
我有一堆压缩成 *gz 格式的二进制文件。这些是在远程节点上生成的,并且必须传输到位于数据中心服务器之一的 HDFS。
我正在探索使用 Flume 发送文件的选项;我探索了使用 Spooling Directory 配置执行此操作的选项,但显然这仅在文件目录位于本地同一 HDFS 节点上时才有效。
有什么建议可以解决这个问题吗?
【问题讨论】:
我有一堆压缩成 *gz 格式的二进制文件。这些是在远程节点上生成的,并且必须传输到位于数据中心服务器之一的 HDFS。
我正在探索使用 Flume 发送文件的选项;我探索了使用 Spooling Directory 配置执行此操作的选项,但显然这仅在文件目录位于本地同一 HDFS 节点上时才有效。
有什么建议可以解决这个问题吗?
【问题讨论】:
你为什么不运行两个不同的 Flume 代理,一个在远程机器上,一个在你的日期节点上。远程机器上的代理可以读取假脱机目录并将其发送到 avro sink。并且datanode上的agent可以读取avro源并将数据转储到HDFS。
【讨论】:
对于这种情况,没有现成的解决方案。但您可以尝试以下解决方法:
【讨论】: