【发布时间】:2013-08-19 10:28:05
【问题描述】:
我正在尝试提取特定标签下的几个元素
我有一堆<h5>,我想用它们下面的<h6> 和<table> 提取它们。
我遇到的问题是:
a) 我有几个<h5> 标签
b) <h6> 和 <table> 不是 <h5> 的孩子/兄弟姐妹。所以例如h5 > table 将不起作用。
所以我想最后得到的是: 从这个网站: http://tcat.nextinsight.com/routes.php?mrnid=453
Route 13 周一至周五,<h6> 入站和餐桌,以及
Route 13 周一至周五,<h6> 出站和餐桌。
一旦我有了整个表格,我就可以使用这个示例 How to get a table from an html page using JAVA 来处理表格
示例结构:(也可以在给定的 url 中找到)
<table width="890" border="0" cellspacing="3">
<tr>
<td colspan="20" bgcolor="#8cd2ef" class="heading"><h6>Outbound from center of Ithaca</h6></td>
</tr>
<br><h5>Route 13 - Saturday</h5><tr class="tableSub"><td>Green @ Commons</td>
<td>Seneca @ Commons</td>
<td>Third @ Hancock</td>
<td>Aldi</td>
<td>Lake @ Ithaca HS</td>
<td>Stewart Park</td>
<td>Shops at Ithaca Mall @ Sears</td>
</tr>
【问题讨论】:
-
你能发布一个示例结构吗?
-
是的。也可以在给定的 url tcat.nextinsight.com/routes.php?mrnid=453 找到
标签: jsoup