【发布时间】:2019-01-19 13:11:17
【问题描述】:
我正在尝试从 urllib.request 响应中获取指向图像的链接。
我正在尝试从此页面获取内容:https://drscdn.500px.org/photo/27428737/m%3D900/v2?webp=true&sig=3d3700c82ea515ecc0b66ca265d6909d67861fbe055c0e817b535f75b21c7ebf 并对其进行解码,但 decode("utf-8") 方法给了我错误:'utf-8' codec can't decode byte 0xff in position 0 : 无效的起始字节。我已经在浏览器控制台中使用 document.characterSet 检查了页面编码,它与 utf-8 编码匹配。
def ex4():
url = sys.argv[1]
r = re.compile(b"<img .*? src=\"([^\"])*\" (.*?)*>")
try:
resource = urllib.request.urlopen(url)
response = resource.read().decode("utf-8")
print(response)
obj = r.search(response)
if obj:
print(obj.group(1))
else:
print("not found")
except Exception as e:
print("error: ", e)
ex4()
【问题讨论】:
-
这是一个图片链接,不能用UTF8编码
标签: python python-3.x url urllib