【发布时间】:2015-04-05 09:34:11
【问题描述】:
我正在尝试废弃一个网页。为了处理除 ASCII 以外的所有字符,我编写了这段代码。
mydata = ''.join([i if ord(i) < 128 else ' ' for i in response.text])
并使用漂亮的汤 python 库对其进行进一步处理。现在这不处理网页上的一些特殊字符,如 [tick]、[star](此处无法显示图片)。 关于如何转义这些字符并用空格替换它们的任何线索。 现在我有这个错误
UnicodeEncodeError: 'charmap' codec can't encode character '\u2713' in position 62: character maps to <undefined>
【问题讨论】:
-
您不需要处理一些特殊字符。一直使用 unicode 字符串。
-
@Daniel 当我将其写入文件时,它会显示此错误。这就是我问这个问题的原因。如何将其格式化为可以写入文件的格式?
-
ideone.com/lwJ76U 这是代码@Daniel 的链接
标签: python python-3.x unicode web-scraping python-unicode