【问题标题】:How to scrape all data from website with Jsoup? [closed]如何使用 Jsoup 从网站上抓取所有数据? [关闭]
【发布时间】:2014-06-09 16:25:27
【问题描述】:

我需要从这些网站抓取所有数据:

我使用 JSOUP。程序必须从网站上抓取所有文本。如您所见,这些站点具有不同的结构。所以我应该使用一些通用的东西。

【问题讨论】:

  • 您可以分析网站的 HTML 并根据其包含的字符数确定 <div> 的“内容”是什么。如果您是初学者,其他启发式方法(例如渲染位置)有点太复杂了。另一种方法是为每个站点保存一个 XPath/CSS 查询来描述应该抓取的内容。 (我是-1,因为我觉得这个问题没有任何努力,我们确实希望在这里看到之前的研究)。

标签: java web-scraping jsoup screen-scraping scrape


【解决方案1】:

试试这个:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.io.IOException;

public class Sample {

    public static void main(String[] args) throws IOException {

        System.out.println(getPrivacyNotice("http://www.gameloft.com/privacy-notice/","div.terms"));
        System.out.println(getPrivacyNotice("http://outfit7.com/privacy-policy/#","div#main"));

    }
    public static String getPrivacyNotice(String url, String tag)throws IOException {
        Document doc= Jsoup.connect(url).get();
        return doc.select(tag).first().text();
    }
}

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2022-01-23
    • 2012-02-28
    • 1970-01-01
    • 2016-06-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多