Selenium jSoup 从 Javascript 网页获取数据答案

【问题标题】：Selenium jSoup get data from Javascript WebpageSelenium jSoup 从 Javascript 网页获取数据
【发布时间】：2014-11-05 20:29:30
【问题描述】：

最近围绕这个问题提出了一些问题，但还没有真正找到我想要的。

我正在尝试将来自http://www.futbol24.com/Live/?__igp=1&LiveDate=20141106 的所有比赛打印出来，包括时间、主队和客队。我知道内容是在页面加载后加载的。

有人告诉我使用 Selenium，然后在结果上使用 jSoup 来获取我想要的数据。是否有人有教程或一些示例代码可以向我展示，如何在上面的网站上进行操作？

任何例子都将不胜感激，谢谢

【问题讨论】：

要求我们推荐或查找书籍、工具、软件库、教程或其他场外资源的问题对于 Stack Overflow 来说是无关紧要的，因为它们往往会吸引固执己见的答案和垃圾邮件。相反，请描述问题以及迄今为止为解决该问题所做的工作。
我不是在要求上述任何一个...我是在要求我提到的特定场景的示例？
我只研究过，没有写任何代码。似乎找不到我需要的方法 - 所以想知道是否有人以前做过类似的事情......

标签： java javascript selenium jsoup

【解决方案1】：

如果您要抓取/数据挖掘某人的网站，请注意以下几点：

获得网站所有者的许可！如果不这样做，您将激怒所有者并在最好的情况下被列入黑名单，或者在最坏的情况下被送达诉讼。
查明该站点是否公开了api。这始终是抓取网站的更好方法。
更适合此任务的研究工具/库。其中一些包括curl、wget、httpbuilder、.....根据您的舒适度/知识水平，您可能需要研究底层技术：http、rest、... ..
selenium 是一个用于浏览器应用程序的功能测试库，这使得它成为此任务的糟糕选择。

PS：我完全期待这会被否决/关闭，因为讨论/意见是off-topic for SO。

【讨论】：

【解决方案2】：

这对我有用：

System.setProperty("webdriver.chrome.driver","C:\\tools\\chromedriver_win32\\chromedriver.exe");
WebDriver driver = new ChromeDriver();
driver.get(url);
Document doc = Jsoup.parse(driver.getPageSource());
// Jsoup code here to parse/scrape data
driver.close();
driver.quit();

【讨论】：