使用java从javascript中提取url链接

【问题标题】：extract url links from javascript using java使用java从javascript中提取url链接
【发布时间】：2011-04-23 08:43:58
【问题描述】：

我正在尝试从 html 页面获取所有 url。我已成功从页面本身获取 url，但也有包含 url 的 javascript。我如何从他们那里获取网址？我一直在寻找一种方法，我将感谢您的帮助。

【问题讨论】：

发布一些您尝试过的代码...可能会对我们有所帮助，帮助您...

标签： java web-scraping

【解决方案1】：

如果 URL 只是 JavaScript 代码中的字符串，那么您可以通过匹配“脚本”标记文本中看起来像 URL 的所有内容来提取它们。例如：

List<URL> urls = new ArrayList<URL>();
Pattern p = Pattern.compile(myUrlPattern);
Matcher m = p.matcher(eachScriptTagText);
while (m.find()) {
  urls.add(m.group());
}

网址的正则表达式可以在互联网上轻松找到。

【讨论】：

【解决方案2】：

这是 Sun 关于网络爬虫的 classic article。它包含一些从 HTML 中提取 URL 的示例代码。

【讨论】：