【问题标题】:Weird HTML code looks like this b'\xff\xd8\xff\xe0奇怪的 HTML 代码看起来像这样 b'\xff\xd8\xff\xe0
【发布时间】:2016-02-05 18:34:18
【问题描述】:

我正在使用 python 来检索 HTML 源,但结果看起来像这样。这是什么,为什么我没有得到实际的页面源代码?

b'\xff\xd8\xff\xe0\x00\x10JFIF\x00\x01\x01\x00\x00\x01\x00\x01\x00\x00\xff\xdb\x00C

【问题讨论】:

    标签: python html


    【解决方案1】:

    这是一张图片。特别是JPEG。因为它是一个字节流,python 用b'.............' 打印它 jpeg 以\xff\xd8\xff\开头

    【讨论】:

      【解决方案2】:

      尝试使用BeautifulSoup

      这是一个例子 How to correctly parse UTF-8 encoded HTML to Unicode strings with BeautifulSoup?

      基本上,您看到的是需要解码的编码字符。

      【讨论】:

        猜你喜欢
        • 2021-11-30
        • 1970-01-01
        • 2023-02-22
        • 1970-01-01
        • 2020-09-13
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多