【问题标题】:Crawl Website using PHP使用 PHP 抓取网站
【发布时间】:2011-03-08 04:24:03
【问题描述】:

我尝试了多种技术来抓取此网址(见下文),但由于某种原因,标题返回不正确。如果我用萤火虫查看页面的源代码,我可以看到正确的标题标签,但是,如果我查看页面源代码,它就不同了。

使用几种 php 技术,我得到了相同的结果。 Digg 能够抓取页面并解析正确的标题。

这是链接:http://lifehacker.com/#!5772420/how-to-make-ios-more-like-android

正确的标题是“如何让您的 iPhone(或其他 iOS 设备)更像 Android” 解析后的标题为“Lifehacker, Tips and downloads for getting things done”

这正常吗?他们是怎么做到的?有没有办法获得正确的标题?

【问题讨论】:

标签: php url web-crawler


【解决方案1】:

那是因为当您使用 PHP(没有任何 JS 支持)请求它时,您将获得 lifehacker 的主页 - 这是 lifehacker.com。

Lifehacker 最近切换了他们的 CMS,以便所有请求都转到初始页面,然后通过主页中的 JS 脚本读取 hashbang 之后的所有内容,以确定需要服务的页面。您需要修改程序以考虑到这一点

编辑 看看这些链接

http://code.google.com/web/ajaxcrawling/docs/getting-started.html

http://www.tbray.org/ongoing/When/201x/2011/02/09/Hash-Blecch

【讨论】:

    【解决方案2】:
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-09-28
    • 2013-05-09
    相关资源
    最近更新 更多