网页抓取 jsoup java 无法抓取完整信息答案

【问题标题】：web scraping jsoup java unable to scrape full information网页抓取 jsoup java 无法抓取完整信息
【发布时间】：2019-05-01 23:25:43
【问题描述】：

我有一个要从网站上抓取的信息。我可以刮掉它。但并非所有信息都被抓取。有这么多的数据丢失。以下图片可帮助您进一步了解：

我使用 Jsoup，将其连接到 URL，然后使用以下代码提取此特定数据：

Document doc = Jsoup.connect("https://www.awattar.com/tariffs/hourly#").userAgent("Mozilla/17.0").get();
Elements durationCycle = doc.select("g.x.axis g.tick text");

但在结果中，我根本找不到任何相关信息。所以我从 URL 打印了整个文档，它显示了以下内容：

当我下载页面并将其作为输入文件读取时，我可以看到这些信息，但当我直接连接到 URL 时却看不到。但我想将它连接到 URL。有什么建议吗？

我希望我的问题可以理解。如果无法解释，请告诉我。

【问题讨论】：

该网站可能正在运行 javascript 并动态加载内容。你的浏览器会执行 JS，你的爬虫不会。
非常感谢.. 是的，确实如此.. 网站正在运行 Javascript 并动态加载内容。有什么可能的方法来刮这个吗？我可以使用什么？
你可以使用 Selenium WebDriver 作为你的浏览器引擎和你的爬虫，或者你可以只使用 Selenium 作为你的浏览器和 Jsoup 作为你的爬虫。 seleniumhq.org/projects/webdriver stackoverflow.com/questions/27720839/…
见this related post。

标签： java web-scraping jsoup

【解决方案1】：

Jsoup 中存在请求正文限制。你应该使用 maxBodySize 参数：

Document doc = Jsoup.connect("https://www.awattar.com/tariffs/hourly#").userAgent("Mozilla/17.0").maxBodySize(0).get();

“0”没有限制。

【讨论】：