使用 urllib 检索所有标头数据答案

【问题标题】：Retrieve ALL header data with urllib使用 urllib 检索所有标头数据
【发布时间】：2012-10-05 17:53:19
【问题描述】：

我爬过很多网站，经常想知道为什么 Firebug 中显示的响应标头和 urllib.urlopen(url).info() 返回的响应标头通常不同，因为 Firebug 报告了 MORE 标头。

我今天遇到了一个有趣的人。我通过在重定向到最终页面之前完全加载（返回 200 状态代码）的“搜索 url”来抓取网站。执行抓取的最简单方法是返回 Location 响应标头并发出另一个请求。但是，当我运行 'urllib.urlopen(url).info().

时，该特定标题不存在

这里有区别：

Firebug 标头：

Cache-Control : no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Connection : keep-alive
Content-Encoding : gzip
Content-Length : 2433
Content-Type : text/html
Date : Fri, 05 Oct 2012 15:59:31 GMT
Expires : Thu, 19 Nov 1981 08:52:00 GMT
Location : /catalog/display/1292/index.html
Pragma : no-cache
Server : Apache/2.0.55
Set-Cookie : PHPSESSID=9b99dd9a4afb0ef0ca267b853265b540; path=/
Vary : Accept-Encoding,User-Agent
X-Powered-By : PHP/4.4.0

我的代码返回的标题：

Date: Fri, 05 Oct 2012 17:16:23 GMT
Server: Apache/2.0.55
X-Powered-By: PHP/4.4.0
Set-Cookie: PHPSESSID=39ccc547fc407daab21d3c83451d9a04; path=/
Expires: Thu, 19 Nov 1981 08:52:00 GMT
Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Pragma: no-cache
Vary: Accept-Encoding,User-Agent
Content-Type: text/html
Connection: close

这是我的代码：

from BeautifulSoup import BeautifulSoup
import urllib
import psycopg2
import psycopg2.extras
import scrape_tools


tools = scrape_tools.tool_box()
db = tools.db_connect()

cursor = db.cursor(cursor_factory = psycopg2.extras.RealDictCursor)
cursor.execute("SELECT data FROM table WHERE variable = 'Constant' ORDER BY data")

for row in cursor:
    url = 'http://www.website.com/search/' + row['data']    
    headers = {
            'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
            'Accept-Encoding' : 'gzip, deflate',
            'Accept-Language' : 'en-us,en;q=0.5',
            'Connection' : 'keep-alive',
            'Host' : 'www.website.com',
            'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:15.0) Gecko/20100101 Firefox/15.0.1'
            }
    post_params = {
                'query' : row['data'],
                'searchtype' : 'products'
                }
    post_args = urllib.urlencode(post_params)
    soup = tools.request(url, post_args, headers)

    print tools.get_headers(url, post_args, headers)

请注意：scrape_tools 是我自己编写的模块。模块中包含的用于检索标头的代码（基本上）如下：

class tool_box:
    def get_headers(self, url, post, headers):
        file_pointer = urllib.urlopen(url, post, headers)
        return file_pointer.info()

有差异的原因吗？我在我的代码中犯了一个愚蠢的错误吗？如何检索丢失的标头数据？我对 Python 还很陌生，所以请原谅任何愚蠢的错误。

提前致谢。非常感谢任何建议！

还有...对不起代码墙=\

【问题讨论】：

BS 用于解析 HTML/XML，而不是 HTTP 标头。
我的目标不是用 BS 解析 HTTP 标头。我的问题是如何检索标题以继续我的抓取和解析 HTML...
这两个响应的状态码是什么？
我刚刚注意到您已经观察到重定向并提到了它，即使我多次阅读了这个问题，我也不知何故错过了 :)

标签： python http-headers urllib

【解决方案1】：

对于这两个请求，您没有得到相同类型的响应。例如，对 Firefox 请求的响应包含 Location: 标头，因此它可能是 302 Moved temporarily 或 301。这些不包含任何实际的正文数据，而是导致您的 Firefox 向 Location: 标头中的 URL 发出第二个请求（urllib 不这样做）。

Firefox 响应也使用Connection : keep-alive，而 urllib 请求得到了Connection: close 的响应。

此外，Firefox 响应是 gzip 压缩的 (Content-Encoding : gzip)，而 urllib 则不是。这可能是因为您的 Firefox 在其请求中发送了一个 Accept-Encoding: gzip, deflate 标头。

不要依赖 Firebug 告诉您 HTTP 标头（即使它在大多数情况下都是如此真实），而是使用像 wireshark 这样的嗅探器来检查实际上通过网络传输的内容.

你显然在处理两种不同的反应。

这可能有几个原因。一方面，Web 服务器应该响应不同，具体取决于 Accept-Language、Accept-Encoding 标头等。客户端在其请求中发送。然后服务器也有可能进行某种User-Agent 嗅探。

无论哪种方式，使用urllib 捕获您的请求以及使用wireshark 捕获Firefox 的请求，然后首先比较请求（不是标头，而是实际的GET / HTTP/1.0 部分。它们真的相同吗？如果是的话，继续比较请求标头并开始为urllib 请求手动设置相同的标头，直到找出哪些标头有所不同。

【讨论】：

@That1Guy 如果有什么安慰的话：据我所知，返回 Location: 标头和 200 OK 是错误的。它可以在使用 201 Created 或 202 Accepted 时设置，但据我所知，从不使用 200。
@That1Guy 另外，与urllib 不同，python requests 模块可以follow location redirects（默认情况下它适用于GET，但不适用于POST）。不知道它会如何处理Location + 200。