【发布时间】:2014-03-18 21:24:50
【问题描述】:
我有一个包含 HTML 内容的平面文件。我正在尝试从中读取文本并从中解析 HTML 内容。我正在使用 jsoup 来实现这个功能。
我的示例字符串:
<tr>
<td><font color="#6C2DC7">Platform</td>
<td><font color="RED" TITLE='n7k_reg_adxl07_2nd0'>aclxl</td>
<td><font color="RED">0.0</td>
<td><a href="http://wwwinearmstools.cisco.com/logs/viewfile.php?files[]=/auto/earmsdata/Earms/testlog-new/20079/88/89-1/report">200798889-1</a></td>
<td><font color="GREEN">0</td>
<td><font color="RED" title='Aborted: 0 Blocked: 0 Skipped: 0 Errored: 0'>1</td>
<td><font color="#7D2252"> </td>
<td><font color="#827839"> </td>
不幸的是,它无法正确解析,否则我无法使用任何 API 方法来提取内容。它的解析如下:
<html>
<head></head>
<body>
<font color="#6C2DC7">Platform<font color="RED" title="n7k_xb45_F3100G_2nd0">qos_100G_FLK_xb_sup3<font color="RED">73.01<a href="http://wwwin-earmstools.cisco.com/logs/viewfile.php?files[]=/auto/earmsdata/Earms/testlog-new/20076/79/43-1/report">200767943-1</a><font color="GREEN">238<font color="RED" title="Aborted: 0 Blocked: 0 Skipped: 0 Errored: 0">88<font color="#7D2252"> <font color="#827839"> </font></font></font></font></font></font></font>
</body>
</html>
这有什么问题。如何才能获取 TR、TD 元素并继续使用 jsoup 方法来提取我需要的内容。
示例代码:
String html = "<html><body><tr><td><font color=\"#6C2DC7\">Platform</td><td><font color=\"RED\" TITLE='n7k_xb45_F3100G_2nd0'>qos_100G_FLK_xb_sup3</td><td><font color=\"RED\">73.01</td><td><a href=\"http://wwwin-earmstools.cisco.com/logs/viewfile.php?files[]=/auto/earmsdata/Earms/testlog-new/20076/79/43-1/report\">200767943-1</a></td><td><font color=\"GREEN\">238</td><td><font color=\"RED\" title='Aborted: 0 Blocked: 0 Skipped: 0 Errored: 0'>88</td><td><font color=\"#7D2252\"> </td><td><font color=\"#827839\"> </td></tr></body></html>";
String charSet = "ISO-8859-1";
Document innerHtml = Jsoup.parse(html,charSet);
【问题讨论】:
-
@Reimeus 请立即查看。我的错。我忘记添加代码了。