【问题标题】:python3 urlopen raises 404 error while openning in the browserpython3 urlopen 在浏览器中打开时引发 404 错误
【发布时间】:2026-01-11 06:25:01
【问题描述】:

我在 python 3.4.6 中使用urllib.request 打开https://www.ethz.ch/(实际的 url 更长,但问题是一样的),它在 Firefox 中可以正常打开,但在 python 中会引发 404 错误。

这里是代码

from urllib.request import urlopen
connection = urlopen('https://www.ethz.ch/')

它会给出以下错误消息

Traceback (most recent call last):
  File "./generate_group_meetings_ical.py", line 9, in <module>
    connection = urlopen('https://www.ethz.ch/')
  File "/usr/lib64/python3.4/urllib/request.py", line 161, in urlopen
    return opener.open(url, data, timeout)
  File "/usr/lib64/python3.4/urllib/request.py", line 470, in open
    response = meth(req, response)
  File "/usr/lib64/python3.4/urllib/request.py", line 580, in http_response
    'http', request, response, code, msg, hdrs)
  File "/usr/lib64/python3.4/urllib/request.py", line 508, in error
    return self._call_chain(*args)
  File "/usr/lib64/python3.4/urllib/request.py", line 442, in _call_chain
    result = func(*args)
  File "/usr/lib64/python3.4/urllib/request.py", line 588, in http_error_default
    raise HTTPError(req.full_url, code, msg, hdrs, fp)
urllib.error.HTTPError: HTTP Error 404: Not found UA

虽然以前的代码可以正常工作。另一条信息是我不是机器上的 root 并且 python3 已从 3.4.5 升级到 3.4.6。所以它来自 web 服务器端或 python 端。我不是 python 也不是网络专家,所以我自己也搞不清楚。

希望有人可以帮助我。

【问题讨论】:

  • 听起来像是用户代理问题,尝试将用户代理字符串设置为其他内容,看看是否是问题所在。
  • 非常感谢弗朗西斯科,它解决了这个问题。我发布了一个描述它的答案。
  • 刚刚在同一所大学为练习表构建刮板时遇到了同样的问题,哈哈

标签: python urllib


【解决方案1】:

感谢弗朗西斯科的评论和that post,我可以使用以下代码使其工作

from urllib.request import Request, urlopen
req = Request('https://www.ethz.ch/', headers={'User-Agent': 'Mozilla/5.0'})
connection = urlopen(req)

我还用 python 2.7.13 和 urllib2 检查了原始版本,它工作正常。显然 python 3.5 有效(来自 Laxmikant 的回答),它最初在 3.4.5 下工作。所以在从 3.4.5 升级到 3.4.6 的过程中发生了一些导致错误的事情。

【讨论】:

    【解决方案2】:

    @Pheidippides 检查您的整个网址中是否有拼写错误,它对我有用:

    Python 3.5.2 (default, Nov 17 2016, 17:05:23) 
    [GCC 5.4.0 20160609] on linux
    Type "help", "copyright", "credits" or "license" for more information.
    $>from urllib.request import urlopen
    $>connection = urlopen('https://www.ethz.ch/')
    $>connection.read()
    

    【讨论】:

    • 感谢@Laxmikant,我完全按照您输入的命令运行了,但至少我现在知道它适用于 python 3.5