【问题标题】:How can I get the HTML code of a webpage after JS has been executed?JS执行后如何获取网页的HTML代码?
【发布时间】:2019-08-02 10:20:30
【问题描述】:

我正在尝试抓取一个 JS 密集型网站,我想通过加载页面、渲染 JS 然后使用 BeautifulSoup 进行抓取来做到这一点。 如果可能的话,我想在树莓派上这样做

我尝试使用 Requests-HTML,它在一段时间内运行良好,但由于内存限制,无法让 Python3.7 在 Raspberry 上运行它。 然后我尝试使用 Selenium,同时使用 Geckodriver,它不适用于 arm6,我不知道如何为 Raspberry 编译,以及 PhantomJS,我无法正常工作。

【问题讨论】:

    标签: python web-scraping


    【解决方案1】:

    你有两个选择。

    • 使用可以模仿浏览器并渲染页面的js部分的工具,例如selenium

    • 检查页面,看看后端的哪些请求正在获取你需要的数据

    如果我需要一个通用工具,我会选择第一种方法,它可以从各种页面中抓取数据

    如果我需要从多个站点抓取页面并完成它,我会选择第二个。如果您提供一些链接,我可以尝试帮助您。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-10-13
      • 1970-01-01
      • 2021-12-05
      • 1970-01-01
      • 2010-10-23
      • 1970-01-01
      相关资源
      最近更新 更多