【发布时间】:2019-08-15 22:12:03
【问题描述】:
假设通过以下命令从标准输入加载了一个 html 文件。
from lxml import html
doc = html.parse(sys.stdin, parser = html.HTMLParser(encoding='utf-8'))
通过doc.xpath(..),我得到了一个<p> 节点(假设它保存在python 中的变量p 中),其中嵌套了一个<span> 节点。
<p><span class="level-4">blah1 blah2</span> blah3 blah4</p>
通过p.xpath('./span') 访问<span> 很容易。但我想将<p> 中剩余的内容转换为文本。因此,我想排除 xpath 匹配的内容(在本例中为 ./span)。
三种方法可以排除与 xpath 匹配的对象吗?谢谢。
【问题讨论】:
-
所以你的预期输出是
blah3 blah4? -
是的。就是这样。