【问题标题】:using jsoup to parse html but not follow/fetch links使用 jsoup 解析 html 但不关注/获取链接
【发布时间】:2013-09-15 05:26:56
【问题描述】:

什么是使用JSoup 解析html 字符串或流而不为链接/img/area/iframe(以及任何其他)标签获取外部数据的“正确”方法?现在我在使用Apache HttpComponents获取页面后正在做这样的事情:

HttpEntity entity = response.getEntity();
InputStream is = entity.getContent();
Document = JSoup.parse(is, null, "");

实际上效果很好。但是将 baseUri 作为空传递只是感觉不对,因为我打赌 JSoup 会尝试使用它,但会失败并继续前进。我只想将 JSoup 用作 html 解析器和 DOM 操作工具包,而不是 http 框架。我也有点担心 JSoup 可能会尝试在当前目录或其他地方寻找 ="/foo" 资源。 对空字符串有什么作用?我尝试将 null 作为 baseUri 传递,这将是执行我想要的操作的自然接口,但它会因 IllegalStateException 而死。

有没有办法做到这一点,还是我什么都不担心?

【问题讨论】:

    标签: java jsoup


    【解决方案1】:

    ...我认为 JSoup 不会那样做。 URL 参数仅用于相对 URL 的规范化,您对它们做什么是您的责任。 JSoup 本身不会尝试访问资源。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2011-10-30
      • 2023-03-03
      • 1970-01-01
      • 2012-11-06
      • 1970-01-01
      • 1970-01-01
      • 2022-01-02
      • 1970-01-01
      相关资源
      最近更新 更多