【发布时间】:2011-04-23 08:43:58
【问题描述】:
我正在尝试从 html 页面获取所有 url。 我已成功从页面本身获取 url,但也有包含 url 的 javascript。 我如何从他们那里获取网址? 我一直在寻找一种方法,我将感谢您的帮助。
【问题讨论】:
-
发布一些您尝试过的代码...可能会对我们有所帮助,帮助您...
标签: java web-scraping
我正在尝试从 html 页面获取所有 url。 我已成功从页面本身获取 url,但也有包含 url 的 javascript。 我如何从他们那里获取网址? 我一直在寻找一种方法,我将感谢您的帮助。
【问题讨论】:
标签: java web-scraping
如果 URL 只是 JavaScript 代码中的字符串,那么您可以通过匹配“脚本”标记文本中看起来像 URL 的所有内容来提取它们。例如:
List<URL> urls = new ArrayList<URL>();
Pattern p = Pattern.compile(myUrlPattern);
Matcher m = p.matcher(eachScriptTagText);
while (m.find()) {
urls.add(m.group());
}
网址的正则表达式可以在互联网上轻松找到。
【讨论】:
这是 Sun 关于网络爬虫的 classic article。它包含一些从 HTML 中提取 URL 的示例代码。
【讨论】: