【问题标题】:Java get all webpages(sitemap) for any websiteJava获取任何网站的所有网页(站点地图)
【发布时间】:2014-05-12 01:09:08
【问题描述】:

我想获取一个网站的所有网页,例如 bbc 网站 (bbc.co.uk) 它会得到 http://www.bbc.co.uk/news/http://www.bbc.co.uk/weather/ 等。

我能想到的一种方法是从主页开始并收集所有链接,并为主页上的每个链接网页进行相同的收集。本质上,最终目标是为任何网站生成站点地图。

还有比这更有效的解决方案吗?

谢谢。

【问题讨论】:

    标签: java html sitemap


    【解决方案1】:

    Selenium 也可以实现同样的效果

    WebDriver driver = new FirefoxDriver();
    driver.load("http://bbc.co.uk");
    // get all links from page
    List<WebElement> links = driver.findElements(By.tagName("a"));
    for(WebElement link : links){
       // Store link and do something
    }
    

    【讨论】:

      【解决方案2】:

      我找到了一个用 java 编写的免费开源站点地图生成器,您可以在此处修改...

      Java-Open Source- SiteMap Generator Code

      【讨论】:

      • 有这方面的文档吗?我似乎在提供的链接上找不到任何内容。
      猜你喜欢
      • 2022-12-06
      • 2021-11-17
      • 2016-07-26
      • 2013-02-24
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多