在 crawler4j visit() 中获取 URL 的种子

【问题标题】：Get seed of URL in crawler4j visit()在 crawler4j visit() 中获取 URL 的种子
【发布时间】：2014-07-17 16:11:11
【问题描述】：

您好，我如何在 crawler4j 的访问功能中获取它来自页面的种子？到目前为止，我有页面的 url，但我无法弄清楚导致那里的种子是什么。

public void visit(Page page) {

    String url = page.getWebURL().getURL();
}

【问题讨论】：

没人知道还是这个问题很愚蠢？

标签： java url web-crawler crawler4j

【解决方案1】：

page.getWebURL().getParentUrl();

【讨论】：

这只会获取上一代的父 url。如果深度大于 1，这将无法帮助您获得原始种子。
如果存储所有爬取页面的父url，可以生成父子url树，找到原始种子。

猜你喜欢

1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
1970-01-01
2014-09-06
2021-12-18

相关资源

下载 2023-03-23
下载 2021-06-24
下载 2021-06-05
下载 2023-01-21

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode