【发布时间】:2019-05-01 23:25:43
【问题描述】:
我有一个要从网站上抓取的信息。我可以刮掉它。但并非所有信息都被抓取。有这么多的数据丢失。以下图片可帮助您进一步了解:
我使用 Jsoup,将其连接到 URL,然后使用以下代码提取此特定数据:
Document doc = Jsoup.connect("https://www.awattar.com/tariffs/hourly#").userAgent("Mozilla/17.0").get();
Elements durationCycle = doc.select("g.x.axis g.tick text");
但在结果中,我根本找不到任何相关信息。所以我从 URL 打印了整个文档,它显示了以下内容:
当我下载页面并将其作为输入文件读取时,我可以看到这些信息,但当我直接连接到 URL 时却看不到。但我想将它连接到 URL。有什么建议吗?
我希望我的问题可以理解。如果无法解释,请告诉我。
【问题讨论】:
-
该网站可能正在运行 javascript 并动态加载内容。你的浏览器会执行 JS,你的爬虫不会。
-
非常感谢.. 是的,确实如此.. 网站正在运行 Javascript 并动态加载内容。有什么可能的方法来刮这个吗?我可以使用什么?
-
你可以使用 Selenium WebDriver 作为你的浏览器引擎和你的爬虫,或者你可以只使用 Selenium 作为你的浏览器和 Jsoup 作为你的爬虫。 seleniumhq.org/projects/webdriverstackoverflow.com/questions/27720839/…
标签: java web-scraping jsoup