【发布时间】:2014-05-12 01:09:08
【问题描述】:
我想获取一个网站的所有网页,例如 bbc 网站 (bbc.co.uk) 它会得到 http://www.bbc.co.uk/news/、http://www.bbc.co.uk/weather/ 等。
我能想到的一种方法是从主页开始并收集所有链接,并为主页上的每个链接网页进行相同的收集。本质上,最终目标是为任何网站生成站点地图。
还有比这更有效的解决方案吗?
谢谢。
【问题讨论】:
我想获取一个网站的所有网页,例如 bbc 网站 (bbc.co.uk) 它会得到 http://www.bbc.co.uk/news/、http://www.bbc.co.uk/weather/ 等。
我能想到的一种方法是从主页开始并收集所有链接,并为主页上的每个链接网页进行相同的收集。本质上,最终目标是为任何网站生成站点地图。
还有比这更有效的解决方案吗?
谢谢。
【问题讨论】:
Selenium 也可以实现同样的效果
WebDriver driver = new FirefoxDriver();
driver.load("http://bbc.co.uk");
// get all links from page
List<WebElement> links = driver.findElements(By.tagName("a"));
for(WebElement link : links){
// Store link and do something
}
【讨论】:
我找到了一个用 java 编写的免费开源站点地图生成器,您可以在此处修改...
【讨论】: