【发布时间】:2014-12-04 02:51:47
【问题描述】:
关于这个主题有很多关于 SO 的问题,但没有一个回答以下问题。使用 Python 请求检查正常的 URL 可以很容易地完成,如下所示:
print requests.head('https://www.facebook.com/pixabay').status_code
状态码 200 表示页面存在。在这种特殊情况下,它是 Facebook 上的粉丝页面。
在 Facebook 上使用普通用户个人资料进行尝试也可以:
print requests.head('https://www.facebook.com/steinberger.simon').status_code
但是,尽管普通浏览器返回 200,但仍有(看似随机的)用户配置文件会导致 404 状态代码:
print requests.head('https://www.facebook.com/drcarl').status_code
使用带有 User-Agent 字符串的自定义标头或使用其他方法检查 URL 都以同样的方式失败:
import requests, urllib, urllib2
url = 'https://www.facebook.com/drcarl'
print requests.head(url).status_code
# using an User-Agent string
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.107 Safari/537.36' }
print requests.head(url, headers=headers).status_code
# using GET instead if HEAD as request method
print requests.get(url, stream=True).status_code
# using urllib
print urllib.urlopen(url).getcode()
# using urllib2
try:
r = urllib2.urlopen(url)
print r.getcode()
except urllib2.HTTPError as e:
print e.code
还有其他 URL 示例使用上述方法莫名其妙地失败了。其中之一是:http://www.rajivbajaj.net/ 它与所有浏览器中的 200 状态代码完美配合,但对于上述所有 Python 方法,结果为 403。
我正在尝试编写一个可靠的 URL 验证器,但我不明白为什么这些 URL 没有通过这些测试。有什么想法吗?
【问题讨论】:
-
你应该向 Facebook 询问他们的 HTTP API(如果有的话)。如果
HEAD或GET在 Python(或 curl)中返回404 Not Found,我们无能为力。 -
我无法重现您的错误,总是得到 200。尝试在任何请求之前使用
logging.basicConfig(level=logging.DEBUG)调试请求。 -
记录没有给出任何新的结果。但是,我找到了 FB URL 失败的原因:未在 Facebook 上进行身份验证时,非公开个人资料返回为 404。
标签: python facebook url http-status-code-404 python-requests