【发布时间】:2012-02-02 10:38:33
【问题描述】:
我正在使用 beautifulSoup 抓取具有 ISO-8859-1 编码的页面,但是我遇到了小问题。
我有一行写着:
logging.info("Processing [%s]" % (link))
变量link 是从beautifulsoup 中抓取的值之一。它是一个 Unicode 字符串,我可以通过输入 print link 来打印它。它在控制台上显示的方式与它被抓取的方式完全相同,但上面的行抛出了这个错误:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 14: ordinal not in range(128)
我现在已经阅读了 Unicode,但我不知道为什么它可以打印但无法记录。
有问题的字符串是这样的:
booba-concert-à-bercy
关于我在哪里搞砸的任何想法?
谢谢。
【问题讨论】:
标签: python unicode encoding character-encoding