【发布时间】:2018-02-01 05:43:55
【问题描述】:
我正在尝试从大量 html 页面中解析表格。每个 tagret 表都有下一个结构:
<table width="100%%" border="2" bordercolor="navy">
<tr bordercolor="#0000FF">
<td width="20%%" height="22" bgcolor="navy"><font color="#FFFFFF"><b>Field1</b></font></td>
<td width="20%%" height="22" bgcolor="navy"><font color="#FFFFFF"><b>Field2</b></font></td>
<td width="60%%" height="22" bgcolor="navy"><font color="#FFFFFF"><b>Field3</b></font></td>
</tr>
<tr>
<td width="12%">A1</td>
<td width="32%"><a href="../">A2</a></td>
<td width="56%">A3</td>
</tr>
<tr>
<td width="12%">B1</td>
<td width="32%"><a href="../">B2</a></td>
<td width="56%">B3
</td>
</tr>
<tr>
<td width="12%">C1</td>
<td width="32%"><a href="../">C2</a></td>
<td width="56%">C3</td>
</tr>
<tr>
<td width="12%">D1</td>
<td width="32%"><a href="../">D2</a></td>
<td width="56%">D3</td>
</tr>
</table>
行数因页面而异,因此解析器应该能够处理任意数量的行。我想从每个 html 页面收集信息,例如
A1 A2 A3
B1 B2 B3
C1 C2 C3
D1 D2 D3
我该怎么做?
【问题讨论】: