【问题标题】:Parse a page (partly generated by JavaScript) by using Selenium使用 Selenium 解析页面(部分由 JavaScript 生成)
【发布时间】:2014-08-28 12:37:25
【问题描述】:

我遇到了一个问题:我想解析一个页面(例如this one)以收集有关所提供应用程序的信息并将这些信息保存到数据库中。

此外,我使用crawler4j 访问每个(可用)页面。但问题 - 如我所见 - 是,crawler4j 需要在源代码中添加链接。

但在这种情况下,hrefs 是由一些 JavaScript 代码生成的,因此 crawler4j 不会获得要访问的新链接/要抓取的页面。

所以我的想法是使用Selenium,这样我就可以像在 Chrome 或 Firefox 等真实浏览器中一样检查多个元素(我对此很陌生)。

但是,老实说,我不知道如何获取“生成”的 HTML 而不是源代码。

谁能帮帮我?

【问题讨论】:

    标签: java javascript selenium web-scraping crawler4j


    【解决方案1】:

    要检查元素,您不需要 Selenium IDE,只需使用带有 Firebug 扩展的 Firefox。此外,通过添加开发者工具,您可以查看页面的源代码以及生成的源代码(主要用于 PHP)。

    Crawler4J 不能像这样处理 javascript。最好留给另一个更高级的爬虫库。在此处查看此回复:

    Web Crawling (Ajax/JavaScript enabled pages) using java

    【讨论】:

      猜你喜欢
      • 2014-10-10
      • 1970-01-01
      • 2021-09-02
      • 2016-12-20
      • 2012-11-25
      • 2016-10-09
      • 2021-01-31
      • 2012-07-01
      • 1970-01-01
      相关资源
      最近更新 更多