【问题标题】:php crawler for ajax based websites?用于基于 ajax 的网站的 php 爬虫?
【发布时间】:2011-05-20 10:50:00
【问题描述】:

也许这听起来很幼稚,但是对于基于 ajax 的网站来说,有没有什么东西可以接近 php 爬虫?

【问题讨论】:

  • 它不是 PHP,所以我不提供它作为答案,但 Java 中的 HTMLUnit 是一个完全可编写脚本的无头浏览器组件,完全支持 JS - 也可以用作爬虫。

标签: php ajax web-crawler


【解决方案1】:

问题在于普通 PHP 不了解如何解析 JavaScript、生成 JavaScript 环境以及与所有内容交互。为了在理论上做到这一点,您必须通过 C API 扩展 PHP 并将其与 JavaScript 库接口。这个规模很大,取决于你有多少资源。

【讨论】:

    【解决方案2】:

    不是自动爬虫,因为它们需要了解 javascript 代码并需要知道发生了什么。

    他们可以做的是使用与启用 ajax 的脚本相同的调用,因此您可以获得原始数据。

    但这意味着您需要对网页及其调用的 url 有一个很好的了解,而且是相当费力的。

    所以答案是:不,据我所知,它们不存在。

    【讨论】:

      【解决方案3】:

      你可以使用phantomjs库来执行js。

      https://github.com/ariya/phantomjs/blob/master/examples/waitfor.js

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2010-11-29
        • 2012-09-24
        • 1970-01-01
        • 1970-01-01
        • 2021-08-20
        相关资源
        最近更新 更多