【问题标题】:A crawler with smart support for sitemaps?对站点地图具有智能支持的爬虫?
【发布时间】:2014-09-19 21:55:30
【问题描述】:

我正在尝试定期抓取数百个网站。我想以最有效和最一致的方式做到这一点。要做到这一点,正确的方法似乎是在任何地方使用站点地图。因此,首先我正在寻找一个能够识别站点地图并知道如何使用它们的爬虫。第二个问题是爬虫有多聪明。虽然有些网站完美地维护了他们的站点地图,但许多网站却没有。他们的站点地图可能已过时或采用非标准格式。每种情况都需要不同的方法。

所以问题是开源(或商业世界)是否已经解决了这个问题?是否有项目做得很好或足够好?我查看了一些我发现的开源爬虫,但找不到这种级别的网站爬虫智能。如果答案是否定的。关于这个问题还有其他好的资源吗?

【问题讨论】:

  • 在不久的将来,我们计划在Site Visualizer 中实现其中一些功能:通过其 XML 站点地图抓取网站,以及批量抓取多个站点(使用命令行)。

标签: sitemap web-crawler


【解决方案1】:

我们的开源爬虫Norconex HTTP Collector 确实支持站点地图。我不知道您遇到的非标准格式,但它会检测不同位置的站点地图(网站根目录,在 robots.txt 中列出,用户提供)。它支持站点地图子索引以及压缩站点地图。如果您想建议新功能,请尝试give your feedback。如果您熟悉 Java,您还可以将默认的站点地图解析实现替换为您自己的。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-02-21
    • 2018-07-23
    • 1970-01-01
    • 2012-03-22
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多