【问题标题】:extract url links from javascript using java使用java从javascript中提取url链接
【发布时间】:2011-04-23 08:43:58
【问题描述】:

我正在尝试从 html 页面获取所有 url。 我已成功从页面本身获取 url,但也有包含 url 的 javascript。 我如何从他们那里获取网址? 我一直在寻找一种方法,我将感谢您的帮助。

【问题讨论】:

  • 发布一些您尝试过的代码...可能会对我们有所帮助,帮助您...

标签: java web-scraping


【解决方案1】:

如果 URL 只是 JavaScript 代码中的字符串,那么您可以通过匹配“脚本”标记文本中看起来像 URL 的所有内容来提取它们。例如:

List<URL> urls = new ArrayList<URL>();
Pattern p = Pattern.compile(myUrlPattern);
Matcher m = p.matcher(eachScriptTagText);
while (m.find()) {
  urls.add(m.group());
}

网址的正则表达式可以在互联网上轻松找到。

【讨论】:

    【解决方案2】:

    这是 Sun 关于网络爬虫的 classic article。它包含一些从 HTML 中提取 URL 的示例代码。

    【讨论】:

      猜你喜欢
      • 2011-10-05
      • 1970-01-01
      • 2021-01-26
      • 1970-01-01
      • 2021-02-01
      • 1970-01-01
      • 2014-12-15
      • 2013-01-02
      • 2023-03-28
      相关资源
      最近更新 更多