【问题标题】:Flume + HDFS-200 appendFlume + HDFS-200 附加
【发布时间】:2014-09-03 18:17:07
【问题描述】:

https://cwiki.apache.org/confluence/display/FLUME/Getting+Started 页面说 HDFS 接收器支持追加,但我无法找到有关如何启用它的任何信息,每个示例都在滚动文件上。因此,如果可能的话,我将不胜感激有关如何使水槽附加到现有文件的任何信息)

更新

可以将所有滚动属性设置为0,这将使flume写入单个文件,但不会关闭文件,并且新记录对其他进程不可见。 有一个和我类似的话题:Flume NG and HDFS,Dmitry 说 Flume 不支持追加,但答案是一年前,文档说相反,所以我认为可能是 Flume 得到了改进或者我误解了一些东西,任何线索都会不胜感激。

更新

我意识到这个问题不清楚,所以让我描述一下我想要实现的目标: 我希望将日志写入一个文件,并且希望能够在它们被摄取到 hdfs 后立即读取它们。目前我正在使用 Cloudera Impala 执行搜索查询,即使 Flume 配置为立即将它们刷新到磁盘上,它也看不到新事件,至少我是这样认为的。我的调查表明,通常人们将 HBase 用于这些目的,但据我了解,除非使用像 Solr 这样的外部索引,否则它对于临时搜索查询无效。问题是我需要尽快找到解决方案,所以我希望它可以更容易完成,例如 Fluentd 可以附加到现有文件,但它只适用于纯文本文件,我更喜欢一些二进制格式。

【问题讨论】:

    标签: hadoop hdfs flume flume-ng


    【解决方案1】:

    我还没有找到让 Flume 做我想做的事情的方法,所以最终我决定使用 Cloudera Search 进行日志流式传输,特别是 Solr 用于摄取和检索。 Flume 似乎没有在 hdfs 中实时摄取的能力,而无需创建大量相对较小的文件,希望他们将来修复它。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-09-07
      • 1970-01-01
      • 1970-01-01
      • 2021-09-26
      相关资源
      最近更新 更多