【问题标题】:How to remove white spaces between paragraph in Jsoup output paragraphs?如何删除 Jsoup 输出段落中段落之间的空格?
【发布时间】:2014-11-22 09:41:42
【问题描述】:

这是我的代码。输出打印时,段落之间也打印空白。如何删除段落之间的空格,然后我想将逐句存储在数组列表中。

    public static void main(String[] args) {

    try {
          String url = "http://www.divaina.com/";

          System.setProperty("http.proxyHost", "cache.mrt.ac.lk");
          System.setProperty("http.proxyPort", "3128");

          Document doc = Jsoup.connect(url).timeout(10000).get();

          Elements paragraphs = doc.select("p");
          for(Element p : paragraphs){
            System.out.println(p.text());}
                } 
        catch (IOException ex) {
            ex.printStackTrace();
           }


}

当我直接将内容添加到数据库空白时,也会添加它。如何删除段落之间的那些空白?实际上我想阅读网页的内容并逐行添加到数据库中。还有其他合适的方法吗?

【问题讨论】:

    标签: java jsoup whitespace


    【解决方案1】:

    显然有些段落没有文字。这可能会有所帮助:

    for (Element p : paragraphs) 
    {
        if (p.text().length() != 0)
        System.out.println(p.text());
    }
    

    【讨论】:

    • 除了一些几乎可以正常工作的内容。谢谢很多博士。祝你有美好的一天:)
    【解决方案2】:

    使用正则表达式:

    String withoutspace = whitespace.replaceAll("\\s", "");
    

    或者试试这个

    String withoutSpace = whitespace.replace("\n", "").replace("\r", "");
    

    【讨论】:

    • 段落之间有空格。一个段落打印。然后一段时间打印空格,然后再次打印下一段。上面的代码对我不起作用。