为什么 urllib.request.urlopen 有时不工作，但浏览器工作？答案

【问题标题】：Why does urllib.request.urlopen sometimes does not work, but browsers work?为什么 urllib.request.urlopen 有时不工作，但浏览器工作？
【发布时间】：2017-01-04 17:32:33
【问题描述】：

我正在尝试使用 Python 的 urllib.request 下载一些内容。以下命令产生异常：

import urllib.request
print(urllib.request.urlopen("https://fpgroup.foreignpolicy.com/foreign-policy-releases-mayjune-spy-issue/").code)

结果：

...
HTTPError: HTTP Error 403: Forbidden

如果我使用 firefox 或链接（命令行浏览器），我会得到内容和状态码 200。如果我使用 lynx，很奇怪，我也会得到 403。

我希望所有方法都有效

同样的方式
成功

为什么不是这样？

【问题讨论】：

也许该网站通过检查标题信息和所有这些东西来阻止人们进行抓取。试试设置？
@MooingRawr：就是这样......请回答。
还有：他们想避开谁？即使是像我这样自己不明白的人，也知道如何使用互联网......
回答了你的两个cmets

标签： python urllib http-status-code-403

【解决方案1】：

该网站很可能会阻止人们抓取他们的网站。您可以通过包含标题信息和其他内容来在基本级别上欺骗他们。请参阅此处了解更多信息。

引用自：https://docs.python.org/3/howto/urllib2.html#headers

import urllib.parse
import urllib.request

url = 'http://www.someserver.com/cgi-bin/register.cgi'
user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64)'
values = {'name' : 'Michael Foord',
          'location' : 'Northampton',
          'language' : 'Python' }
headers = { 'User-Agent' : user_agent }

data = urllib.parse.urlencode(values)
data = data.encode('ascii')
req = urllib.request.Request(url, data, headers)
with urllib.request.urlopen(req) as response:
   the_page = response.read()

人们不希望脚本抓取他们的网站的原因有很多。它占用了他们的带宽。他们不希望人们通过制作抓取机器人来受益（金钱方面）。也许他们不希望您复制他们的站点信息。你也可以把它想象成一本书。作者希望人们阅读他们的书，但也许他们中的一些人不希望机器人扫描他们的书，创建一个非副本，或者机器人可能会总结它。

您在评论中的问题的第二部分是模糊和广泛的，因为有太多自以为是的答案。

【讨论】：

关于第二个问题（“他们想避开谁”）：那是一个反问的问题；）

【解决方案2】：

我尝试了这段代码，一切正常。

我刚刚在请求中添加了headers。请看下面的例子：

from urllib.request import Request, urlopen, HTTPError
from time import sleep

def get_url_data(url = ""):
    try:
        request = Request(url, headers = {'User-Agent' :\
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36"})

        response = urlopen(request)
        data = response.read().decode("utf8")
        return data
    except HTTPError:
        return None

url = "https://fpgroup.foreignpolicy.com/foreign-policy-releases-mayjune-spy-issue/"

for i in range(50):
    d = get_url_data(url)
    if d != None:
        print("Attempt %d was a Success" % i)
    else:
        print("Attempt %d was a Failure" % i)
    sleep(1)

输出：

Attempt 0 was a Success
Attempt 1 was a Success
Attempt 2 was a Success
Attempt 3 was a Success
Attempt 4 was a Success
Attempt 5 was a Success
Attempt 6 was a Success
Attempt 7 was a Success
Attempt 8 was a Success
Attempt 9 was a Success
...
Attempt 42 was a Success
Attempt 43 was a Success
Attempt 44 was a Success
Attempt 45 was a Success
Attempt 46 was a Success
Attempt 47 was a Success
Attempt 48 was a Success
Attempt 49 was a Success

【讨论】：

请不要通过重复请求来淹没网站。至少在它们之间使用time.sleep。
好的，我会在每个请求之间添加一个time.sleep。感谢您的评论。
@bfontaine ：我不会。我首先检查新项目的 rss 提要，并且只下载某个主题的新文章。当我第一次运行脚本并偶然请求几篇文章时，问题就出现了。