【发布时间】:2015-01-16 08:00:12
【问题描述】:
我正在尝试从一个看起来像这样的 html 页面中提取文本内容:
<div class="content">
<div class="section">
Lorem <a href="..." class="link">ipsum</a>
dolor <a href="..." class="link">sit</a> amet,
consectetur <a href="..." class="link">adipiscing</a> elit
</div>
<div class="section">
sed do <a href="..." class="link">eiusmod</a> tempor
incididunt <a href="..." class="link">ut</a> labore
et <a href="..." class="link">dolore</a>
</div>
</div>
我只想提取文本部分:
Lorem ipsum dolor amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore
我的 XPath (2.0) 表达式是 //*[contains(@class, 'section')]。当我使用javax.xml.xpath.XPathExpression 评估它时,我只检索链接之外的文本:
Lorem dolor amet, consectetur elit, sed do tempor incididunt labore et
我以前没有使用过 XPath - 是否有更好的表达式来提取全文?谢谢。
【问题讨论】: