【问题标题】:Manipulate html document处理html文档
【发布时间】:2012-08-10 07:25:45
【问题描述】:
...<b><a>hello</a></b>...

我想从 html 文档中删除 &lt;b&gt;&lt;/b&gt; 标记。可以使用 Jsoup 吗?

【问题讨论】:

    标签: html html-parsing jsoup html-manipulation


    【解决方案1】:

    如果 doc 是您的文档,包含您的 HTML:

    doc.select("b").unwrap();
    

    (也可以与Element / Elements 一起使用)

    示例:

    Document document = new Document("");
    document.html("...<b><a>hello</a></b>...").select("b").unwrap();
    

    现在您的文档不包含任何 b-Tag

    【讨论】:

      【解决方案2】:
      public String clean(String unsafe){ 
              Whitelist whitelist = Whitelist.none(); 
              whitelist.addTags(new String[]{"a"}); 
      
              String safe = Jsoup.clean(unsafe, whitelist); 
              return StringEscapeUtils.unescapeXml(safe); 
       } 
      

      来自Removing Html tags except few specific ones from String in java

      【讨论】:

        猜你喜欢
        • 2016-08-07
        • 1970-01-01
        • 2011-12-03
        • 1970-01-01
        • 2022-08-23
        • 1970-01-01
        • 2021-11-25
        • 2011-03-28
        • 1970-01-01
        相关资源
        最近更新 更多