【问题标题】:Get full HTML using Jsoup使用 Jsoup 获取完整的 HTML
【发布时间】:2019-05-02 16:28:34
【问题描述】:

我正在使用 Jsoup 库通过选择其中包含“nav”字符串的类属性来抓取网页。

这是获取网站 HTML 的代码:

var bodyString = Jsoup.connect(url)
                .ignoreContentType(true)
                .userAgent("Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:25.0) Gecko/20100101 Firefox/25.0")
                .timeout(12000)
                .followRedirects(true)
                .execute()
                .body();

由 Jsoup CSS 选择器选择的 Html 示例:

然而在浏览器相同的网站 Html 看起来像这样:

如你所见,id="varPreviewMenu" 的 ul 元素包含 Jsoup 检索的 HTML 不包含的 li 元素。

我怎样才能得到这些元素?

【问题讨论】:

标签: java jsoup


【解决方案1】:

您看到的元素很可能是由一些 JavaScript 代码动态添加到 DOM 中的。这意味着当您使用 Jsoup 时,它们在请求正文中不可用。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2013-10-25
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-04-28
    • 2023-03-16
    • 1970-01-01
    相关资源
    最近更新 更多