如何使用 Jsoup 从网站上抓取所有数据？ [关闭]答案

【问题标题】：How to scrape all data from website with Jsoup? [closed]如何使用 Jsoup 从网站上抓取所有数据？ [关闭]
【发布时间】：2014-06-09 16:25:27
【问题描述】：

我需要从这些网站抓取所有数据：

我使用 JSOUP。程序必须从网站上抓取所有文本。如您所见，这些站点具有不同的结构。所以我应该使用一些通用的东西。

【问题讨论】：

您可以分析网站的 HTML 并根据其包含的字符数确定 <div> 的“内容”是什么。如果您是初学者，其他启发式方法（例如渲染位置）有点太复杂了。另一种方法是为每个站点保存一个 XPath/CSS 查询来描述应该抓取的内容。（我是-1，因为我觉得这个问题没有任何努力，我们确实希望在这里看到之前的研究）。

标签： java web-scraping jsoup screen-scraping scrape

【解决方案1】：

试试这个：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.io.IOException;

public class Sample {

    public static void main(String[] args) throws IOException {

        System.out.println(getPrivacyNotice("http://www.gameloft.com/privacy-notice/","div.terms"));
        System.out.println(getPrivacyNotice("http://outfit7.com/privacy-policy/#","div#main"));

    }
    public static String getPrivacyNotice(String url, String tag)throws IOException {
        Document doc= Jsoup.connect(url).get();
        return doc.select(tag).first().text();
    }
}

【讨论】：