【发布时间】:2011-05-20 10:50:00
【问题描述】:
也许这听起来很幼稚,但是对于基于 ajax 的网站来说,有没有什么东西可以接近 php 爬虫?
【问题讨论】:
-
它不是 PHP,所以我不提供它作为答案,但 Java 中的 HTMLUnit 是一个完全可编写脚本的无头浏览器组件,完全支持 JS - 也可以用作爬虫。
标签: php ajax web-crawler
也许这听起来很幼稚,但是对于基于 ajax 的网站来说,有没有什么东西可以接近 php 爬虫?
【问题讨论】:
标签: php ajax web-crawler
问题在于普通 PHP 不了解如何解析 JavaScript、生成 JavaScript 环境以及与所有内容交互。为了在理论上做到这一点,您必须通过 C API 扩展 PHP 并将其与 JavaScript 库接口。这个规模很大,取决于你有多少资源。
【讨论】:
不是自动爬虫,因为它们需要了解 javascript 代码并需要知道发生了什么。
他们可以做的是使用与启用 ajax 的脚本相同的调用,因此您可以获得原始数据。
但这意味着您需要对网页及其调用的 url 有一个很好的了解,而且是相当费力的。
所以答案是:不,据我所知,它们不存在。
【讨论】:
你可以使用phantomjs库来执行js。
https://github.com/ariya/phantomjs/blob/master/examples/waitfor.js
【讨论】: