【发布时间】:2015-01-27 15:02:49
【问题描述】:
可以通过关键字搜索 Google 新闻,然后可以将搜索范围缩小到某个时间段。
我尝试在网站上进行搜索,然后使用结果页面的 url 在 python 中对搜索进行逆向工程:
import urllib2
url = 'https://www.google.com/search?hl=en&gl=uk&tbm=nws&authuser=0&q=apple&oq=apple&gs_l=news-cc.3..43j0l9j43i53.5710.6848.0.7058.5.4.0.1.1.0.66.230.4.4.0...0.0...1ac.1.SRcIeXL5d48'
handler = urllib2.urlopen(url)
html = handler.read()
但是,我收到 403 错误。此方法适用于其他网站,例如 bbc.co.uk。所以显然谷歌不希望我用 python 抓取网站。
所以我有两个问题: 1)是否可以绕过谷歌设置的这个限制?如果是这样,如何? 2) 是否有任何其他可抓取的新闻网站,我可以在其中搜索给定时间段内关键字的新闻。
对于任何一个选项,我都不介意使用付费服务。所以也欢迎这样的建议。
提前致谢, K.
【问题讨论】:
-
您还可以使用 selenium 浏览 google 新闻,并使用 urllib 从各个链接获取信息。 Selenium 和 phantom JS 或 selenium 和 chromedriver 可以完美地使用 python 浏览谷歌新闻
-
通过设置新闻日期范围的代码示例回答有关第三方 Google 新闻 API 的类似问题:stackoverflow.com/a/61015947/1291371
标签: python web-scraping google-news