【发布时间】:2014-11-11 10:24:30
【问题描述】:
我正在使用 urllib2 和 beautifulsoup 编写蜘蛛。但是我遇到了一些问题。
-
我无法正确下载网页。我试过了
GET 'http://thesite.html',wget 'http://thesite.html',curl -O 'http://thesite.html',
在 linux 终端上,但质量很大,似乎是错误的编解码器。
然后我尝试使用
file_get_contents('http://thesite.html'),也无法获取正确的网页。然后我试了
urllib2.urlopen('http://thesite.html'),不行。- 无法检测到编码。
s = urllib2.urlopen('http://thesite.html') print chardet.detect(s)并输出{'confidence':0.0, 'encoding':None} - 我也用 urllib.request 尝试了 python3,我可以得到一个字节字符串,但是当我尝试将此字节解码为 utf-8 时,我收到一条错误消息。
有人可以帮我解决这个问题吗?如何像网络浏览器一样获取正确的网页。
【问题讨论】:
-
我认为您会发现发布一两条错误消息可能有助于人们理解您的问题。
-
该页面可能拒绝了您的用户代理。尝试改变它。
-
感觉自己像个小偷,不好意思发细节。
-
不知道细节的人怎么能帮忙?
标签: python beautifulsoup web-crawler urllib2