【发布时间】:2017-05-24 12:48:08
【问题描述】:
我有一组 html 页面(对此我没有任何控制权),需要将 li 标记的完整内容提取为单个文本块,包括空格和除 li 标记对之外的所有标记。我正在使用 HTML Xpath 解析器 1.0(对此没有选择。)
输入的html看起来像
<ul class="gs-source-list">
<li id="s1" class="gs-source-item">
[S1] First text here
<br/>
<br/>
Label:
<br/>
<br/>
<span style="display:inline-block; margin-left:35px;">
More text
<br/>
More text
<br/>
</span>
<br/>
<br/>
Note:
<br/>
<br/>
<span style="display:inline-block; margin-left:35px;">GRO reference is Note text</span>
</li>
</ul>
.//*[@class='gs-source-item'] 得到我想要的文本,但带有开始和结束 li 标签。
.//*[@class='gs-source-item']//text() 将文本作为单独的元素(而不是作为单个元素)而不是内部标签。
string(.//*[@class='gs-source-item']//text()) 只获取第一行文本。
string-join(.//*[@class='gs-source-item']//text(),"") 对于我正在使用的解析器来说似乎不是可接受的语法,无论如何我认为它仍然会去除内部标签。
.//*[@class='gs-source-item']//node() 获取所有文本和标签,但不是单个块。
我已经没有想法可以尝试了...我查看了相关问题,但没有找到任何帮助(除了我上面列出的想法)。
【问题讨论】:
-
试试
//*[@class='gs-source-item']/*- 这会返回列表中元素的集合。 -
@tomredfern 返回内部标签的内容,但不返回顶级文本。
-
对不起,我下次会正确阅读您的问题。