【问题标题】:Visit all the pages in pagination using custom crawler使用自定义爬虫访问分页中的所有页面
【发布时间】:2013-01-24 06:31:19
【问题描述】:

我已经使用 jsoup 构建了一个自定义爬虫。我能够从特定列表页面中删除所有数据。但是对于有分页的页面,我如何从分页元素中获取链接。就像说亚马逊、ebay 等中存在的任何零售清单一样,我将产品清单第一页的 URL 传递给 jsoup。它工作正常。但是我如何自动化获取剩余页面链接的过程。

我知道我可以通过硬编码分页的类来获取元素。但我正在寻找一种通用的方法。

【问题讨论】:

  • 分页是什么意思??

标签: html pagination jsoup web-crawler


【解决方案1】:
    for (int i = 1; i < 10; i++) {
        String url = "http://exampleurl.com/index.php?page=" + i;
        Document doc = Jsoup.connect(url).get();
    }

希望这会带来一些启发。该代码将通过分页循环浏览网站中的十页。

【讨论】:

    【解决方案2】:

    如果网站用rel="next" 注释其分页链接,您可以按照这些链接检索更多页面。

    除此之外,HTML 本身没有任何内容指定分页中页面之间的关系。您必须使用启发式方法(例如,带有包含“下一个”的文本的链接或带有递增数字(1、2、3 ... 最后一个)的链接序列)。显然,这些启发式方法并不适用于每个网站,并且可能会在网站设计更新时停止工作。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多