【发布时间】:2015-06-20 03:52:18
【问题描述】:
我正在解析 HTML 并尝试获取父节点本身的值,而没有子节点的值。
HTML 示例:
<html>
<body>
<div>
<a href="http://intro.com">extra stuff</a>
Text I would like to get.
<a href="http://example.com">link to example</a>
</div>
</body>
</html>
代码:
def tagsoupParser = new org.ccil.cowan.tagsoup.Parser()
def slurper = new XmlSlurper(tagsoupParser)
def htmlParsed = slurper.parseText(stringToParse)
println htmlParsed.body.div[0]
但是上面的代码返回:
额外的东西我想得到的文本。示例链接
如何只获取父节点值而没有子节点?示例:
我想得到的文字。
附注: 我尝试通过执行 substring 来删除额外的元素,但它被证明是不可靠的。
【问题讨论】:
标签: groovy html-parsing nodes xmlslurper