【问题标题】:Get seed of URL in crawler4j visit()在 crawler4j visit() 中获取 URL 的种子
【发布时间】:2014-07-17 16:11:11
【问题描述】:

您好,我如何在 crawler4j 的访问功能中获取它来自页面的种子? 到目前为止,我有页面的 url,但我无法弄清楚导致那里的种子是什么。

public void visit(Page page) {

    String url = page.getWebURL().getURL();
}

【问题讨论】:

  • 没人知道还是这个问题很愚蠢?

标签: java url web-crawler crawler4j


【解决方案1】:
page.getWebURL().getParentUrl();

【讨论】:

  • 这只会获取上一代的父 url。如果深度大于 1,这将无法帮助您获得原始种子。
  • 如果存储所有爬取页面的父url,可以生成父子url树,找到原始种子。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2014-09-06
  • 2021-12-18
相关资源
最近更新 更多