【发布时间】:2014-04-22 21:07:15
【问题描述】:
有没有办法在 html 页面中提取锚标记周围的文本?我在 java 中工作,我的研究需要我在标签中和标签周围提取数据。我尝试过搜索,我发现的只是正则表达式,只提取锚文本而不是它周围的单词。
【问题讨论】:
-
不再...为什么不直接使用解析器?
-
改用 HTML 解析器。另请参阅 Luiggi 的链接。
-
用正则表达式解析 html 不是我愿意做的事情,除非它的数量很少而且众所周知。我推荐类似 jsoup jsoup.org/download 的东西,它是一个专门用于 Web 解析的库。你所说的周围标签到底是什么意思?这是否意味着您想知道嵌套标签旁边的标签是什么?
-
您也可以考虑使用 jericho.htmlparser.net/docs/index.html 解析器将 HTML 呈现为纯文本。