【发布时间】:2013-11-09 11:18:21
【问题描述】:
我希望 crawler4j 以仅属于种子域的方式访问页面。种子中有多个域。我该怎么做?
假设我正在添加种子 URL:
- www.google.com
- www.yahoo.com
- www.wikipedia.com
现在我开始爬网,但我希望我的爬虫只访问以上三个域中的页面(就像shouldVisit())。显然有外部链接,但我希望我的爬虫仅限于这些域。子域、子文件夹都可以,但不在这些域之外。
【问题讨论】:
-
如果您实施受限网址,如果完成,您可以发布答案,它将帮助很多人
标签: java web-crawler crawler4j