使用 PHP 抓取网站答案

【问题标题】：Crawl Website using PHP使用 PHP 抓取网站
【发布时间】：2011-03-08 04:24:03
【问题描述】：

我尝试了多种技术来抓取此网址（见下文），但由于某种原因，标题返回不正确。如果我用萤火虫查看页面的源代码，我可以看到正确的标题标签，但是，如果我查看页面源代码，它就不同了。

使用几种 php 技术，我得到了相同的结果。 Digg 能够抓取页面并解析正确的标题。

正确的标题是“如何让您的 iPhone（或其他 iOS 设备）更像 Android” 解析后的标题为“Lifehacker, Tips and downloads for getting things done”

这正常吗？他们是怎么做到的？有没有办法获得正确的标题？

【问题讨论】：

【解决方案1】：

那是因为当您使用 PHP（没有任何 JS 支持）请求它时，您将获得 lifehacker 的主页 - 这是 lifehacker.com。

Lifehacker 最近切换了他们的 CMS，以便所有请求都转到初始页面，然后通过主页中的 JS 脚本读取 hashbang 之后的所有内容，以确定需要服务的页面。您需要修改程序以考虑到这一点

编辑看看这些链接

【讨论】：

【解决方案2】：

找到答案：

http://lifehacker.com/#!5772420/how-to-make-ios-more-like-android

变成：

http://lifehacker.com/?_escaped_fragment_=5772420/how-to-make-ios-more-like-android

【讨论】：