【发布时间】:2014-09-19 21:55:30
【问题描述】:
我正在尝试定期抓取数百个网站。我想以最有效和最一致的方式做到这一点。要做到这一点,正确的方法似乎是在任何地方使用站点地图。因此,首先我正在寻找一个能够识别站点地图并知道如何使用它们的爬虫。第二个问题是爬虫有多聪明。虽然有些网站完美地维护了他们的站点地图,但许多网站却没有。他们的站点地图可能已过时或采用非标准格式。每种情况都需要不同的方法。
所以问题是开源(或商业世界)是否已经解决了这个问题?是否有项目做得很好或足够好?我查看了一些我发现的开源爬虫,但找不到这种级别的网站爬虫智能。如果答案是否定的。关于这个问题还有其他好的资源吗?
【问题讨论】:
-
在不久的将来,我们计划在Site Visualizer 中实现其中一些功能:通过其 XML 站点地图抓取网站,以及批量抓取多个站点(使用命令行)。
标签: sitemap web-crawler