【发布时间】:2012-06-28 08:04:09
【问题描述】:
我正在尝试抓取一些 HTML(经作者许可)。我使用的是 PHP 库 suggested here,它运行良好,直到我遇到如下所示的链接:
<a href="javascript:__doPostBack('dgItem$_ctl2$_ctl0','')">
我相信这是一些 asp.net 的东西。当我点击它时,它不会更改 URL,它只是将一些新内容加载到页面中,我也想抓取这些内容。
我该如何解决这个问题?
我想我需要模拟点击,但在处理原始 HTML 时我不能这样做,我需要某种浏览器/JS 解释器,不是吗?
是否有更适合此任务的库?我不限于 PHP,但它是首选。
【问题讨论】:
-
正在阅读this article...
-
您可能对this project感兴趣
-
@pguardiario:它说它做表单和cookie,但没有提到JS。
-
再看一下,它专门执行您所说的 doPostBack 操作。
-
@pguardiario:啊..虽然这可能适用于这个项目,但它仍然不如完全支持 JS 的东西通用,不是吗?不过可能要快很多。如果再出现这种情况,我会调查的。谢谢!
标签: php html web-scraping