【发布时间】:2013-02-03 23:08:59
【问题描述】:
我正在抓取一个 html 文档,其结构一直在变化。 Css 类名甚至会改变,所以我不能依赖它。但是,有一件事永远不会改变,该值始终包含在子树中,如下所示:
<span>
<span>
<span>wanted value</span>
<span></span>wanted value
</span>
</span>
这可以表示为 XPath 表达式吗?
它应该不匹配:
<span>
<span>
<span> 1, one too little </span>
<span> 2 </span>
<span> 3, one too many </span>
<span> 4, two too many </span>
</span>
</span>
我打算使用 Python 的 lxml 来完成这项工作。
【问题讨论】: