【问题标题】:Parsing commented tags with Jsoup HTML Parser使用 Jsoup HTML Parser 解析注释标签
【发布时间】:2016-02-04 18:16:09
【问题描述】:

我正在使用基本解析器程序解析一个简单的 HTML 文档。

Document doc = Jsoup.parse(responseFromServer);

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
String linkText = null;
for (Element link : links) {      
  linkText = link.text();
}

一些标签被注释掉了。我还想在评论中解析这些标签。由于我无权访问 HTML 输出源,我无法编辑文件和删除 cmets。

如何解析 cmets 标签?

【问题讨论】:

    标签: html parsing jsoup


    【解决方案1】:

    Jsoup 默认忽略 cmets。要解析它们,您可以在解析之前转换 html 字符串。类似的东西

     htmlStr = htmlStr.replaceAll("<!--|-->","");
     document doc = Jsoup.parser(htmlStr);
    

    只有当被注释掉的 html 确实或多或少是有效的 HTML 时,这才会正常工作。如果只是文本,您可能需要进行不同的转换。

    【讨论】:

      猜你喜欢
      • 2014-04-25
      • 1970-01-01
      • 2012-10-01
      • 1970-01-01
      • 2014-01-11
      • 1970-01-01
      • 2012-09-05
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多