【发布时间】:2014-05-12 18:37:52
【问题描述】:
我正在使用 lxml etree xpath 方法处理 xml 文件。我的代码是
from lxml import etree
File="c:\file.xml"
doc=etree.parse(File)
alltext = doc.xpath('descendant-or-self::text()')
clump = "".join(alltext)
clump
我得到以下输出:
"'\n\t\n\t\t\n\t\t\n\t\t\n\t\t\n\t\n\t\n\t\t\t\n\t\n\t\t\n\t\t\t\n\t\t\t\tIntroduction\n\t\t\t\n\t\t\t\n\t\t\n\t\t\n\t\t\t\n\t\t\t\tAccessibility\n\t\t\t\n\t\t\t\n\t\t\n\t\t\n\t\t\t\n\t\t\t\tOpening eBooks\n\t\t\t\n\t\t\t\n\t\t\t\n\t\t\t\
我想从输出中删除空格和所有制表符,所以我使用另一个代码但未能获得所需的输出
这是代码
import string
filter(lambda x: x in string.printable, clump)
我只想从“Introduction , Accessibilty , Opening eBooks”的输出中获取文本
【问题讨论】:
标签: python python-2.7 xpath xml-parsing lxml