【发布时间】:2017-10-04 00:55:47
【问题描述】:
我正在尝试解决一项任务,我将不胜感激 - 文档链接、论坛链接或除 https://cwiki.apache.org/confluence/display/NIFI/FAQs 之外的其他常见问题解答,或本文中的任何有意义的答案 =)。
所以,我有以下任务: 我系统的初始部分每 5-15 分钟从不同的数据库源收集数据。然后我删除重复项,删除垃圾,根据逻辑组合来自不同来源的数据,然后将其作为多个流重定向到系统的第二部分。 据我所知,“NiFi”可以以最好的方式完成这项任务=)。
目前我可以通过“GetHTTP”处理器成功地从 InfluxDB 获取信息。但是,我无法配置相同类型的处理器来从 Elastic DB 获取所有必要选项的信息。我想每 5-15 分钟接收一次数据,时间段从“现在-减-”到“现在”。 (取决于调度程序周期)和几个额外的过滤器。如果我理解正确,这可以通过订阅“_index”或通过定期向 DB 请求所需的时间间隔来实现。
我知道 NiFi 有几个为 Elasticsearch 设计的特定处理器(FetchElasticsearch5、FetchElasticsearchHttp、QueryElasticsearchHttp、ScrollElasticsearchHttp)以及 GetHTTP 和 PostHTTP 处理器。然而,不幸的是,我缺乏信息甚至更好的例子——如何为我的目的配置它们的“属性”=(。
FetchElasticsearchHttp、QueryElasticsearchHttp有什么区别?哪一个更适合我的任务? GetHTTP 和 QueryElasticsearchHttp 除了几个特定字段外,还有什么区别?如果我根据需要对其进行调整,GetHTTP 会以相同的方式执行吗?
有什么建议吗?
如果有任何帮助,我将不胜感激。
【问题讨论】:
标签: elasticsearch apache-nifi processors