【发布时间】:2013-10-22 14:08:23
【问题描述】:
使用 Python 中的 ElementTree,如何从节点中提取所有文本,剥离该元素中的所有标签并仅保留文本?
例如,假设我有以下内容:
<tag>
Some <a>example</a> text
</tag>
我想返回Some example text。我该怎么做呢?到目前为止,我所采取的方法都产生了相当灾难性的后果。
【问题讨论】:
-
IIRC BeautifulSoup 有一些简单的方法可以解决这个问题...
-
点赞this
-
如果可能的话,我想避免使用额外的外部库
-
无疑这是不正确的(我认为),因为正则表达式对 XML 不利,但您可以尝试
re.sub(r'\<.*?\>', '', text)。
标签: python xml-parsing elementtree