【问题标题】:How to scrape HTTPS javascript web pages如何抓取 HTTPS javascript 网页
【发布时间】:2011-07-30 12:52:33
【问题描述】:

我正在尝试通过在线目录监控日常价格。 该站点使用 HTTPS 并使用 javascript 生成目录页面。如何与网站交互并使其生成我需要的页面?

我已经在其他可以轻松访问 HTML 的网站上完成了此操作,一旦生成了 HTML 解析就没有问题。

我只知道 Python 和 Java。

提前致谢。

【问题讨论】:

    标签: java javascript python https web-scraping


    【解决方案1】:

    看看HTMLUnit - 一个可以完全由您的代码控制的无头 Java 浏览器。一个简单的例子可以在这里看到:http://htmlunit.sourceforge.net/gettingStarted.html

    (强制性警告:通过屏幕抓取网站,您可能会违反其服务条款,并可能让自己面临诉讼;在开始之前检查您是否被允许这样做)

    【讨论】:

      【解决方案2】:

      如果他们创建了一个与他们的 JavaScript 交互的 Web API,您可能可以直接抓取它,而不是尝试走 HTML 路线。

      如果他们对其进行了混淆,或者该选项由于其他原因不可用,那么您基本上需要一个 Web 浏览器来评估 JavaScript,然后废弃浏览器的 DOM。也许写一个浏览器插件?

      【讨论】:

        【解决方案3】:

        我通过它的 python 绑定使用 webkit 来抓取 javascript 内容。 See here for example.

        【讨论】:

          猜你喜欢
          • 1970-01-01
          • 2017-03-07
          • 1970-01-01
          • 2021-06-25
          • 2021-11-03
          • 2020-06-18
          • 2017-02-09
          • 1970-01-01
          相关资源
          最近更新 更多