【发布时间】:2018-03-23 15:47:47
【问题描述】:
我有几个关于 StormCrawler 的问题:http://stormcrawler.net/
1.拒绝Shops的爬取:
我尝试在 default-regex-filters.txt 中使用这个正则表达式:-(shop)。 这是正确的方法吗?因为 Stormcrawler 仍然会抓取在其 URL 中某处有“商店”的网站..
2。 “maxDepth”参数有什么作用?
我需要限制每个网站的抓取深度,例如只需爬取距 /home 站点“单击/级别”的页面。这是该用例的正确参数吗?如果没有这个选项在哪里?
3. Elasticsearch:发现和获取
我会理解发现应该总是大于获取。但是我遇到了获取>发现的情况。是否有对此的解释或发现和提取的确切含义是什么?
4.配置入口:parse.emitOutlinks
我真的不明白它的含义。有简单的解释吗?因为当我将它设置为 false 时,爬虫只爬取了 URL 的第一页,我不知道为什么。
5. “fetcherthreads”和“每个队列的线程数”之间的区别?
我们目前使用 200 个 fetcherthreads 和每个队列 20 个线程。这两者的比例如何?
很抱歉有这么多问题,但我非常感谢您的帮助。 提前谢谢!
问候,
乔乔
【问题讨论】:
标签: apache web-crawler apache-storm stormcrawler