【问题标题】:Selenium jSoup get data from Javascript WebpageSelenium jSoup 从 Javascript 网页获取数据
【发布时间】:2014-11-05 20:29:30
【问题描述】:

最近围绕这个问题提出了一些问题,但还没有真正找到我想要的。

我正在尝试将来自http://www.futbol24.com/Live/?__igp=1&LiveDate=20141106 的所有比赛打印出来,包括时间、主队和客队。我知道内容是在页面加载后加载的。

有人告诉我使用 Selenium,然后在结果上使用 jSoup 来获取我想要的数据。是否有人有教程或一些示例代码可以向我展示,如何在上面的网站上进行操作?

任何例子都将不胜感激,谢谢

【问题讨论】:

  • 要求我们推荐或查找书籍、工具、软件库、教程或其他场外资源的问题对于 Stack Overflow 来说是无关紧要的,因为它们往往会吸引固执己见的答案和垃圾邮件。相反,请描述问题以及迄今为止为解决该问题所做的工作。
  • 我不是在要求上述任何一个...我是在要求我提到的特定场景的示例?
  • 我只研究过,没有写任何代码。似乎找不到我需要的方法 - 所以想知道是否有人以前做过类似的事情......

标签: java javascript selenium jsoup


【解决方案1】:

如果您要抓取/数据挖掘某人的网站,请注意以下几点:

  1. 获得网站所有者的许可!如果不这样做,您将激怒所有者并在最好的情况下被列入黑名单,或者在最坏的情况下被送达诉讼。
  2. 查明该站点是否公开了。这始终是抓取网站的更好方法。
  3. 更适合此任务的研究工具/库。其中一些包括、.....根据您的舒适度/知识水平,您可能需要研究底层技术:、... ..
  4. 是一个用于浏览器应用程序的功能测试库,这使得它成为此任务的糟糕选择。

PS:我完全期待这会被否决/关闭,因为讨论/意见是off-topic for SO

【讨论】:

    【解决方案2】:

    这对我有用:

    System.setProperty("webdriver.chrome.driver","C:\\tools\\chromedriver_win32\\chromedriver.exe");
    WebDriver driver = new ChromeDriver();
    driver.get(url);
    Document doc = Jsoup.parse(driver.getPageSource());
    // Jsoup code here to parse/scrape data
    driver.close();
    driver.quit();
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-07-08
      • 2018-07-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-02-27
      相关资源
      最近更新 更多