【发布时间】:2012-04-22 22:04:27
【问题描述】:
假设我有一个在标签名称中使用 Unicode 的文档,例如 <año>2012</año>。
当我使用 lxml 中的 etree 来解析这样的文档时,我没有问题,树是正确构建的。但是当(出于调试目的)我尝试打印一些元素时,我得到一个关于尝试将一些 unicode char 编码为 ASCII 失败的异常。
不是终端配置或文件编码错误的问题,因为我可以毫无问题地打印包含相同 unicode 字符的节点名称 (.tag)。显然问题是由 Element 对象的“字符串化”引起的,它假定标签名称是纯 ascii。
下面的代码说明了问题(也说明不是文件/终端/编码问题)。
# coding: utf-8
from lxml import etree
doc = """<?xml version="1.0" encoding="utf-8"?>
<año>2012</año>
"""
x = etree.fromstring(doc) # No problem
print x.tag # No problem
print x # Exception
在具有正确定义的 LC_CTYPE 的终端中运行上述脚本,会产生以下输出:
año
Traceback (most recent call last):
File "procesar.py", line 8, in <module>
print x
UnicodeEncodeError: 'ascii' codec can't encode character u'\xf1' in position 10: ordinal not in range(128)
注意print x.tag 如何正确输出año。 print x 不应该产生类似<Element año at b7d26eb4> 的东西吗?
这是一个已知问题吗?有关解决方法的任何想法?
【问题讨论】:
-
我可以用 lxml 重现这个。 ElementTree 有效;它打印
<Element u'a\xf1o' at 0xbf5530>。 -
我尝试使用 ElementTree 并且有同样的异常。也许我使用的是旧版本并且问题已解决。 help(elementtree) 在我的机器上显示
# $Id: __init__.py 1821 2004-06-03 16:57:49Z fredrik $,它看起来已经够老了......顺便说一句,当你说“我可以重现这个......”时,你的意思是你有同样的问题,还是有错字?跨度> -
无论如何......这是一个有点不同的问题。如何重新定义 Element.__repr__ 以便尝试解决问题?如果我尝试做
x.__repr__ = other_function我得到AttributeError: 'etree._Element' object attribute '__repr__' is read-only