【发布时间】:2015-11-19 00:12:05
【问题描述】:
我正在学习编写实验爬虫。我打算使用JSoup。我的问题是,例如,如果加载 facebook.com,JSoup 是否会下载属于该页面的 CSS、JS 和图像。
简单来说 JSoup 是否加载链接样式表、JS、图片等资产?
【问题讨论】:
标签: java html parsing html-parsing jsoup
我正在学习编写实验爬虫。我打算使用JSoup。我的问题是,例如,如果加载 facebook.com,JSoup 是否会下载属于该页面的 CSS、JS 和图像。
简单来说 JSoup 是否加载链接样式表、JS、图片等资产?
【问题讨论】:
标签: java html parsing html-parsing jsoup
Jsoup 仅下载该页面中存在的html 代码。它不会下载 JavaScript 生成的 html、链接的 css 或 js 或图像。
但是,对于图像,您可以使用Jsoup 提取img 标签,然后在java 中使用URL 和Input/OutputStream 分别下载。
【讨论】: