【发布时间】:2016-02-05 18:34:18
【问题描述】:
我正在使用 python 来检索 HTML 源,但结果看起来像这样。这是什么,为什么我没有得到实际的页面源代码?
b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x00\x00\x01\x00\x01\x00\x00\xff\xdb\x00C
【问题讨论】:
我正在使用 python 来检索 HTML 源,但结果看起来像这样。这是什么,为什么我没有得到实际的页面源代码?
b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x00\x00\x01\x00\x01\x00\x00\xff\xdb\x00C
【问题讨论】:
这是一张图片。特别是JPEG。因为它是一个字节流,python 用b'.............' 打印它
jpeg 以\xff\xd8\xff\开头
【讨论】:
尝试使用BeautifulSoup
这是一个例子 How to correctly parse UTF-8 encoded HTML to Unicode strings with BeautifulSoup?
基本上,您看到的是需要解码的编码字符。
【讨论】: