【发布时间】:2010-12-05 14:47:24
【问题描述】:
我从以下网站获得了爬虫列表:http://www.karavadra.net/blog/2010/list-of-crawlers-bots-and-their-ip-addresses/#respond
如果您知道更好的定期更新 IP 列表,请告诉我。
现在我创建了对象:
private static final HashSet<String> list = new HashSet<String>(){{
add("66.249.71.248");
add("66.249.66.38");
add("66.249.65.142"); // 331 more entires
}};
我正在通过这种方法检查列表:
public static boolean isCrawler(String ip){
return list.contains(ip);
}
请告知如何改进它以成为更快、更优雅的解决方案。我使用弹簧,所以豆子也是一种选择。
我想在列表中集成更新服务,但我没有找到有用的可下载 IP 列表,通过 Jsoup 解析网站从来都不是理想的解决方案。
【问题讨论】:
-
如何将nofollow 属性添加到跟踪器的链接并查看UA 字符串?
标签: java performance web-crawler