使用 jsoup 解析 html 但不关注/获取链接答案

【问题标题】：using jsoup to parse html but not follow/fetch links使用 jsoup 解析 html 但不关注/获取链接
【发布时间】：2013-09-15 05:26:56
【问题描述】：

什么是使用JSoup 解析html 字符串或流而不为链接/img/area/iframe（以及任何其他）标签获取外部数据的“正确”方法？现在我在使用Apache HttpComponents获取页面后正在做这样的事情：

HttpEntity entity = response.getEntity();
InputStream is = entity.getContent();
Document = JSoup.parse(is, null, "");

实际上效果很好。但是将 baseUri 作为空传递只是感觉不对，因为我打赌 JSoup 会尝试使用它，但会失败并继续前进。我只想将 JSoup 用作 html 解析器和 DOM 操作工具包，而不是 http 框架。我也有点担心 JSoup 可能会尝试在当前目录或其他地方寻找 ="/foo" 资源。 对空字符串有什么作用？我尝试将 null 作为 baseUri 传递，这将是执行我想要的操作的自然接口，但它会因 IllegalStateException 而死。

有没有办法做到这一点，还是我什么都不担心？

【问题讨论】：

标签： java jsoup

【解决方案1】：

...我认为 JSoup 不会那样做。 URL 参数仅用于相对 URL 的规范化，您对它们做什么是您的责任。 JSoup 本身不会尝试访问资源。

【讨论】：