【问题标题】:How do I convert a document made in Jsoup (the Java html parser) into a string如何将用 Jsoup(Java html 解析器)制作的文档转换为字符串
【发布时间】:2023-03-15 01:44:01
【问题描述】:

我有一个用 jsoup 制作的文档,看起来像这样

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();

如何将 doc 转换为字符串。

【问题讨论】:

    标签: java html-parsing jsoup html-parser


    【解决方案1】:

    你试过了吗:

    Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
    String htmlString = doc.toString();
    

    作为 Document 扩展 Element 它还具有根据@987654321“检索元素的内部 HTML”的方法 html() @。所以这应该工作:

    Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
    String htmlString = doc.html();
    

    其他信息:

    每个 Document 对象都有一个对内部类 Document.OutputSettings 实例的引用,可以通过方法 outputSettings()访问该实例> 文件。在那里,您可以使用设置器 prettyPrint(true/false) 启用/禁用漂亮打印。有关详细信息,请参阅 DocumentDocument.OutputSettings 的 API

    【讨论】:

    • 第一个代码块给了我[Ljava.lang.String;@383534aa,而不是html/内容。顺便说一句,如果它是 Document[] 怎么办?
    【解决方案2】:

    doc.toString() 有效,doc.outerHtml() 也有效。

    【讨论】:

    • Document.toString() 内部调用outerHtml()
    【解决方案3】:
     Document doc = Jsoup.connect("http://en.wikipedia.org/").get();     
     Elements post = doc.select("div.post-content");
     String dd = post.toString();
     Document ddd = Jsoup.parse(dd);
    

    将字符串解析为文档后,您可以在其上使用文档函数

     Elements scriptTag = ddd.getElementsByTag("script");
     System.out.println(scriptTag);
    

    【讨论】:

      猜你喜欢
      • 2014-03-12
      • 2016-05-27
      • 1970-01-01
      • 2015-11-16
      • 1970-01-01
      • 1970-01-01
      • 2013-07-22
      • 1970-01-01
      • 2015-01-15
      相关资源
      最近更新 更多