【发布时间】:2014-08-26 16:50:06
【问题描述】:
我需要编写一个代码以递归方式获取网站中的所有链接。由于我是新手,这就是我目前所拥有的;
List<WebElement> no = driver.findElements(By.tagName("a"));
nooflinks = no.size();
for (WebElement pagelink : no)
{
String linktext = pagelink.getText();
link = pagelink.getAttribute("href");
}
现在我需要做的是,如果列表找到同一域的链接,那么它应该从该 URL 获取所有链接,然后返回到上一个循环并从下一个链接继续。这应该一直持续到找到整个网站中的最后一个 URL。例如,主页是基本 URL,它有 5 个其他页面的 URL,然后在获取 5 个 URL 中的第一个后,循环应该让第一个 URL 的所有链接返回主页并从第二个 URL 恢复。现在,如果第二个 URL 有子子 URL,那么循环应该找到第一个链接的链接,然后恢复到第二个 URL,然后返回主页并从第三个 URL 恢复。
谁能帮帮我???
【问题讨论】:
-
stackoverflow.com/questions/5913613/… 有一些关于处理 URL 的信息,如果您试图确定一个链接是否在同一个域中,这可能会有所帮助。没有保证,我还没有进一步调查