【问题标题】:Omit links, ads, etc. from jsoup parse从 jsoup 解析中省略链接、广告等
【发布时间】:2012-04-18 14:01:47
【问题描述】:

我正在使用 jsoup 来抓取不同的 html 页面:

public class HtmlParse {
    public static void main(String[] args) throws IOException {
     String site = args[0];
        Document doc = Jsoup.connect(site).get();
        String htm = doc.body().text();
        System.out.println(htm);
    }
}

效果很好。然而,它的回报似乎有很多绒毛(即:网站链接 [a href])。有没有一种快速的方法可以在 jsoup 中省略它?我找到了getElementsByTag 文献,但很难使用它。

提前谢谢你。

【问题讨论】:

    标签: java web-scraping jsoup


    【解决方案1】:

    您可以“清理”已解析的文档,请参阅example。 例如,只留下简单的文字:

    Whitelist whitelist = Whitelist.simpleText();
    String result = Jsoup.clean(doc.html(), whitelist);
    

    或者,您可以简单地删除所有a标签:

    doc.select("a").remove();
    

    【讨论】:

    • 白名单仍然显示文本,但是 doc.select("a").remove();完全符合我的要求,谢谢!
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2010-12-30
    • 1970-01-01
    相关资源
    最近更新 更多