【发布时间】:2018-09-21 04:52:54
【问题描述】:
我正在使用带有 mysql 的风暴爬虫。
我有 100 个种子 URL,但我的缓冲区大小仅为 50。
如果一些种子的外链落在桶号 0 中会发生什么。 在那种情况下,这些外链是否也会被视为种子?
storm crawler 如何区分种子 url 和其他 url?
【问题讨论】:
标签: web-crawler apache-storm stormcrawler
我正在使用带有 mysql 的风暴爬虫。
我有 100 个种子 URL,但我的缓冲区大小仅为 50。
如果一些种子的外链落在桶号 0 中会发生什么。 在那种情况下,这些外链是否也会被视为种子?
storm crawler 如何区分种子 url 和其他 url?
【问题讨论】:
标签: web-crawler apache-storm stormcrawler
不确定我是否理解您的问题。种子 URL 和非种子 URL 之间没有区别。 StormCrawler 不会以任何特定方式识别它们。 seed URLs 一词仅表示将它们作为起点提供给爬虫。
存储桶不用于区分 URL 的优先级或区分它们,它们基于主机名或域,以便多个 spout 实例可以并行读取它们并保证站点的良好多样性以实现性能目的。
StormCrawler 中的 SQL 模块不如 SOLR 或 Elasticsearch 等其他后端高效。它适用于一些网站,但除此之外可能效率较低。
【讨论】: