【发布时间】:2017-08-16 15:45:37
【问题描述】:
<table><tr><td>HEADER</td><td>Header Value <supporting value></td></tr><tr><td>SUB</td><td>sub value. write to <test@gmail.com></td></tr><tr><td>START DATE</td><td>11/23/ 2016</td></tr><tr><td>END DATE</td><td>11/23/2016</td></tr></table>
以上文字是我的html字符串,需要提取HEADER、SUB、START DATE和END DATE的值。我使用 Jsoup 来提取值,但我遇到了非 html 元素标签的问题。 API 要么跳过这些元素,要么添加一个原本不存在的结束标记。
所以我的想法是用&lt;替换非html元素标签,然后使用Jsooup提取值
有什么建议吗??
【问题讨论】:
-
您正在寻求解决方案,但您没有很好地定义问题。您在寻找什么模式?
-
@sp00m 您不能使用正则表达式来解析整个 html 文档,但在这种情况下,只提取一些遵循明确定义的模式的值,是可能的。
-
@WiktorStribiżew 这不太一样。这些不是有效的 HTML 标记。
-
不是一个好主意。见stackoverflow.com/questions/701166/…。