对站点地图具有智能支持的爬虫？答案

【问题标题】：A crawler with smart support for sitemaps?对站点地图具有智能支持的爬虫？
【发布时间】：2014-09-19 21:55:30
【问题描述】：

我正在尝试定期抓取数百个网站。我想以最有效和最一致的方式做到这一点。要做到这一点，正确的方法似乎是在任何地方使用站点地图。因此，首先我正在寻找一个能够识别站点地图并知道如何使用它们的爬虫。第二个问题是爬虫有多聪明。虽然有些网站完美地维护了他们的站点地图，但许多网站却没有。他们的站点地图可能已过时或采用非标准格式。每种情况都需要不同的方法。

所以问题是开源（或商业世界）是否已经解决了这个问题？是否有项目做得很好或足够好？我查看了一些我发现的开源爬虫，但找不到这种级别的网站爬虫智能。如果答案是否定的。关于这个问题还有其他好的资源吗？

【问题讨论】：

在不久的将来，我们计划在Site Visualizer 中实现其中一些功能：通过其 XML 站点地图抓取网站，以及批量抓取多个站点（使用命令行）。

标签： sitemap web-crawler

【解决方案1】：

我们的开源爬虫Norconex HTTP Collector 确实支持站点地图。我不知道您遇到的非标准格式，但它会检测不同位置的站点地图（网站根目录，在 robots.txt 中列出，用户提供）。它支持站点地图子索引以及压缩站点地图。如果您想建议新功能，请尝试give your feedback。如果您熟悉 Java，您还可以将默认的站点地图解析实现替换为您自己的。

【讨论】：