【发布时间】:2012-04-18 14:01:47
【问题描述】:
我正在使用 jsoup 来抓取不同的 html 页面:
public class HtmlParse {
public static void main(String[] args) throws IOException {
String site = args[0];
Document doc = Jsoup.connect(site).get();
String htm = doc.body().text();
System.out.println(htm);
}
}
效果很好。然而,它的回报似乎有很多绒毛(即:网站链接 [a href])。有没有一种快速的方法可以在 jsoup 中省略它?我找到了getElementsByTag 文献,但很难使用它。
提前谢谢你。
【问题讨论】:
标签: java web-scraping jsoup