【发布时间】:2009-12-11 03:57:26
【问题描述】:
亲爱的,我现在正在使用网络工具
http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=
解析网页。
例如,我们可以解析 newyorktimes 主页,我们这样做:
http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html
在我们浏览器的地址栏中,它会很好地为我们解析。
但是,对于谷歌页面,它只是失败了。 例如,如果我想解析谷歌新闻头版,比如:
http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn
我总是会收到 500 内部服务器错误。
我确定这与 google 网站有关,我想我们可能需要一些用于 google 的 API,有人知道如何为 google 页面解决这个问题吗? 非常感谢。
【问题讨论】:
标签: information-retrieval html-content-extraction