【发布时间】:2014-06-09 16:25:27
【问题描述】:
我需要从这些网站抓取所有数据:
我使用 JSOUP。程序必须从网站上抓取所有文本。如您所见,这些站点具有不同的结构。所以我应该使用一些通用的东西。
【问题讨论】:
-
您可以分析网站的 HTML 并根据其包含的字符数确定
<div>的“内容”是什么。如果您是初学者,其他启发式方法(例如渲染位置)有点太复杂了。另一种方法是为每个站点保存一个 XPath/CSS 查询来描述应该抓取的内容。 (我是-1,因为我觉得这个问题没有任何努力,我们确实希望在这里看到之前的研究)。
标签: java web-scraping jsoup screen-scraping scrape