使用 Jsoup 从 URL 中提取部分内容答案

【问题标题】：Partial extraction with Jsoup from URL使用 Jsoup 从 URL 中提取部分内容
【发布时间】：2021-08-04 15:41:45
【问题描述】：

我尝试使用 Jsoup 从 URL 中提取所有 HTML，但检查提取，我的 Document 仅包含 HTML 的一部分。你能帮我解决这个问题吗？下面使用的代码：

    Document doc = Jsoup.connect("https://www.diretta.it/").get();
    System.out.println(doc);

结果开始于：

...
var leftMenuEnvironment = {"trans":{"TRANS_DC_INCIDENT_SUBTYPE_31":"ERS","TRANS_DC_INCIDENT_SUBTYPE_32":"Iniezione","TRANS_DC_INCIDENT_SUBTYPE_33":"
...

而不是来自：

<body class="responsive background-add-off isWide soccer _fs flat pid_400 mgc oneLineLayout isSportPage fcp-skeleton light-bg-1 v3 bg3 seoTopWrapperHidden theme--dark tablet_ad">
<div class="otPlaceholder otPlaceholder--hidden">
...

【问题讨论】：

标签： java xml-parsing jsoup extract

【解决方案1】：

您的代码没问题，问题出在您的 IDE：html 的大小超过 170kb，当您使用 IDE 将其打印到屏幕上时，它只会显示它的结尾。尝试将其保存到文件中，或打印其中的一部分：

String start = doc.html().substring(0, 500);
System.out.println(start);

你会看到 html 的开头。

【讨论】：