【发布时间】:2015-07-31 15:27:57
【问题描述】:
我正在使用 Jsoup 从网站中提取文本,但我不知道如何正确获取嵌套表中的特定数据行。我需要在 Property Address: 和 Mailing Address: 部分之后获取纯文本,以便存储数据。
这是我正在解析的 HTML 源代码:
<table width="730" border="0" cellspacing="0" cellpadding="2">
<tr>
<td><table width="730" border="0" cellspacing="0" cellpadding="2">
<tr>
<td><h1>Property Information</h1>
<table width="758">
<tr>[IRRELEVANT]</tr>
<tr>[IRRELEVANT]</tr>
<tr>
<td colspan="3"><strong>Property Address:</strong> !!THIS PLAIN TEXT HERE IS WHAT I NEED!! DATA1</td>
<td> </td>
</tr>
<tr>
<td colspan="3"><strong>Mailing Address:</strong>!!NEED THIS TOO!! DATA2</td>
<td> </td>
</tr>
<tr>[IRRELEVANT]</tr>...................
我用这个作为模板,但它不起作用,我不知道如何使它起作用。
Document documentSerialNumberPageData = Jsoup.connect(stringURLOfSerialNumberPage).get(); //connect to serial number page
Elements elementsSerialNumberPageData = documentSerialNumberPageData.select("#tabletext tbody > tr > td > tbody > tr > td > tbody > tr > td"); //this is not even remotely correct... :(
Element elementAddress = elementsSerialNumberPageData.get(0);
System.out.println(elementAddress.text());
我对 HTML/CSS 的了解非常有限,但我精通 Java。有什么建议么?谢谢! 完整来源:https://github.com/PhotonPhighter/NODScraper/blob/master/src/nodscraper/Main.java
【问题讨论】: