【发布时间】:2017-10-20 06:14:12
【问题描述】:
我正在尝试抓取以下页面: http://usbcdirectory.com/listing/1-us-black-chambers
我正在使用 python 3.5.0
这是我的代码:
urllib.request.urlopen('http://usbcdirectory.com/listing/1-us-black-chambers')
使用上面我得到 404 not found 错误。但是,当我从浏览器打开时,页面存在。
我尝试搜索这个问题的解决方案,在这里我发现了什么:
1) 将 urllib 更改为 requests :我已经这样做了,并且在状态码中出现 404 错误
>>>requests.get('http://usbcdirectory.com/listing/1-us-black-chambers')
Request <404>
2) 我检查了我的链接是正确的
3) 我试图找出页面是否是使用 javascript 生成的。我相信不是。
这里的网页有什么问题?他们是否以某种方式阻止了抓取,或者这是 url 的问题?
【问题讨论】: