【问题标题】:Parse Html tag using JavaRegex or Jsoup [closed]使用 JavaRegex 或 Jsoup 解析 Html 标签 [关闭]
【发布时间】:2020-01-04 06:09:33
【问题描述】:

我需要解析无序列表项的文本。我的来源如下:

<ul>
<li><em><strong><span style="color:#FFFFF">Bolded and Colored Text</span></strong>      </em></li>
 <li>No Styling...Just a Text</li>
 <li><u><b>Bolded </b> and <i>Italic </i> and Underlined Text</u></li>
  <li><u>Underline Started and <span style="color:#FFFFF>Only Colored Text</span> Underline Ended</u></li>

现在我需要获取标签内的每一个文本:

tag, subtag text

【问题讨论】:

  • 一定要使用 Jsoup。但我不清楚,你到底想要什么输出?把它写下来,例如

标签: java apache-poi jsoup


【解决方案1】:

Jsoup 将是一个不错的选择。你可以像这样解析它

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;

public class JsoupParser {

    public static void main(String args[]) {
        String html = "<ul>"
                + "<li><em><strong><span style=\"color: #FFFFF\">Bolded and Colored Text</span></strong> </em></li>"
                + "<li>No Styling...Just a Text</li>"
                + "<li><u><b>Bolded </b> and <i>Italic </i> and Underlined Text</u></li>"
                + "<li><u>Underline Started and <span style=\"color: #FFFFF\">Only Colored Text</span> Underline Ended</u></li>"
                + "</ul>";

        Document doc = Jsoup.parse(html);
        for(Element elem : doc.select("*")){
            System.out.println("Tag Name : " + elem.tagName());
            System.out.println("Value : " + elem.text());
            System.out.println();
        }
    }
}

【讨论】:

  • 嗨 Syam.. 谢谢。是的,我几乎得到了正在寻找的信息。
  • 我的实际要求是在excel里面显示html格式的文本。例如,如果我从后端获取的 html 是 我是粗体,并且 我是 也是下划线斜体。我需要根据标签在 excel 中显示格式。带有 的文本在 excel 中显示为粗体,带有 的文本在 excel 中显示为斜体。我怎么能用 XssfRichTextString 做到这一点。但不知道如何将基于标签解析的字体应用到丰富字符串
  • 看看stackoverflow.com/questions/16610881/…。希望这会有所帮助。
  • @Syam.. 我正在寻找相反的结果.. 我必须根据来自后端数据的 html 标签的解析来设置或应用字体。就像通过 jsoup 解析之后,如果标记名是 那么我需要通过 xssfrichstring() 方法将标记的文本应用到 excel 内的下划线
猜你喜欢
  • 2014-02-03
  • 2014-04-25
  • 1970-01-01
  • 2012-10-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2012-09-05
  • 1970-01-01
相关资源
最近更新 更多