【发布时间】:2016-03-04 03:53:22
【问题描述】:
我有这个 html 表格:
<table class="info">
<tbody>
<tr><td class="name">Year</td><td>2011</td></tr>
<tr><td class="name">Storey</td><td>3</td></tr>
<tr><td class="name">Title</td><td><a href="http://gov.kz/premera/">Premier</a></td></tr>
<tr><td class="name">Condition</td><td>Renovated</td></tr>
</tbody>
</table>
在此表中,数据的组织方式是每行包含 2 个包含在 <td> 标记中的单元格。第一个单元格包含有关数据类型的信息。例如房屋建造年份。第二个单元格包含年份信息本身,即 2011。
我正在尝试从第二个单元格中提取信息(它是:2011, 3, Premier, Renovated)
我使用这个 Xpath 表达式:
//table[@class="info"]//td[2]/text()
收到的输出(错误):
2011
3
Renovated
期望的输出:
2011
3
Premier
Renovated
如您所见,第三行中的第二个 <td> 而不仅仅是包含链接的文本,因此该行中的信息会丢失。因此,未收到所需的字符串“Premier”。
有时行中的单元格包含链接,有时它只是纯文本。有什么方法可以在这两种情况下从第二个单元格中提取数据(链接或仅给出文本)?
【问题讨论】: