【发布时间】:2012-04-24 14:06:38
【问题描述】:
我想实现一个 java 方法,它以 URL 作为输入并将整个网页包括 css、图像、js(所有相关资源)存储在我的磁盘上。我使用 Jsoup html 解析器来获取 html 页面。现在我想实现的唯一选择是使用 jsoup 获取页面,现在解析 html 内容并将相对路径转换为绝对路径,然后对 javascript、图像等发出另一个获取请求并将它们保存在磁盘上。 我还阅读了有关 html 清洁器、htmlunit 解析器的信息,但我认为在所有这些情况下,我都必须解析 html 内容以获取图像、css 和 javascript 文件。
任何建议,无论我的想法是否正确。 或者有什么简单的方法可以完成这个任务??
【问题讨论】:
-
我在 SO 上发现了一些类似的问题,但这个问题的答案仍然没有答案:(
-
你的想法完全正确。您可能想查看一些 Apache Nutch 的源代码;这是一个搜索引擎。索引部分获取网页,然后扫描它们的链接(并且还做了很多其他的事情)。您想要的代码将相似但不相同。
-
你是如何解决这个问题的?你能得到你想要的吗
-
@Clara_57S 是的,我使用了 jsoup,它为我解决了问题。
-
但它不能执行javascript。
标签: java javascript html-parsing jsoup