【发布时间】:2016-04-25 17:24:14
【问题描述】:
我有以下方法:
public Article buildArticle(SNSpecific specific, String urlToScrape) throws IOException {
Document page = Jsoup.connect(urlToScrape).timeout(10*1000).get();
Article a = new Article();
a.setWebsite("http://www.svensktnaringsliv.se/");
a.setUrl(urlToScrape);
a.setTitle(page.select(specific.getTitleSelector()).text());
a.setDiscoveryTime(page.select(specific.getDateAndTimeSelector()).text());
if(isPdfPage(urlToScrape))
{
Elements e = page.select("div.indepth-content > div.content > ul.indepth-list a");
a.setText(page.select("div.readmoreSummary").text() + "For full article: " +
e.first().attr("href"));
}else {
a.setText(page.select(specific.getContentSelector()).text());
}
return a;
}
问题是有时即使我更改了超时,它也无法连接到urlToScrape,而且我不想等待太久的页面,这就是为什么我正在寻找除timeout() 方法之外的替代解决方案,还有什么方法可以解决这个问题?(我有大约 200 页要抓取)。
【问题讨论】: