【问题标题】:How to retrieve google pages如何检索谷歌页面
【发布时间】:2009-12-11 03:57:26
【问题描述】:

亲爱的,我现在正在使用网络工具

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=

解析网页。

例如,我们可以解析 newyorktimes 主页,我们这样做:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html

在我们浏览器的地址栏中,它会很好地为我们解析。

但是,对于谷歌页面,它只是失败了。 例如,如果我想解析谷歌新闻头版,比如:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn

我总是会收到 500 内部服务器错误。

我确定这与 google 网站有关,我想我们可能需要一些用于 google 的 API,有人知道如何为 google 页面解决这个问题吗? 非常感谢。

【问题讨论】:

    标签: information-retrieval html-content-extraction


    【解决方案1】:

    根据 google.com robots.txt 文件,明确要求您不要抓取他们的内容。 Google 不为机器可读的搜索结果提供 API;他们希望通过小部件和嵌入策略来控制其内容的呈现。

    【讨论】:

    • 谢谢,乔南森,帮助雅虎怎么样!还是必应?
    • 其实,Robert 应该阅读 robots.txt 文件。 Google 的某些部分 - 明确允许进行抓取。
    猜你喜欢
    • 1970-01-01
    • 2023-03-20
    • 1970-01-01
    • 1970-01-01
    • 2018-12-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多