【发布时间】:2020-10-19 16:13:54
【问题描述】:
我目前正在开发一个基于 Storm Crawler 的项目。在当前项目中,我们修改了原始 Storm Crawler Core 工件的一些 Bolts 和 Spout。比如我们改变了ParserBolt的一些部分等等。另外,我们在上面的项目中开发了一些处理步骤。我们的 Bolts 已与原始的 Storm Crawler 项目混合使用。例如,我有一个图像分类器,它提供来自 Storm Crawler 的一些图像并对其进行一些分类。现在,我要将抓取阶段与处理阶段分开。对于爬取阶段,我想使用最新版本的 Storm Crawler 并将其结果保存到名为 Docs 的 Solr 集合中。对于第二阶段(独立于爬取阶段),我有另一个基于 Storm 的项目,它与 Storm Crawler 没有任何关系。第二个拓扑的输入元组需要来自 Docs 集合。我不知道将 Solr 集合中的文档提供给第二个风暴拓扑。它是一个好的设计架构吗? 如果是,将数据导入第二个拓扑的好方法是什么?还应该注意的是,我想在不停机的情况下使用这些项目。
【问题讨论】:
标签: solr architecture apache-storm stormcrawler