最近使用Jsoup来抓取网页,并对网页进行解析,发现很好用。在抓取过程中遇到一个问题,有些页面总是报Timeout异常,开始想是不是被抓取网站对IP进行了限制,后来发现用HttpClient可以获取到内容。

原来我最开始使用Jsoup.connect(url).get();方法获取网页内容,这种方式使用的是默认超时时间3秒。

原来Jsoup是可以设置超时的,修改成如下就可以了:

Jsoup.connect(url).timeout(30000).get(); // 30S

 

相关文章:

  • 2021-09-20
  • 2021-12-14
  • 2022-12-23
  • 2021-10-04
  • 2022-02-07
  • 2022-02-09
  • 2021-08-08
猜你喜欢
  • 2021-11-21
  • 2021-11-11
  • 2022-12-23
  • 2021-11-19
  • 2021-08-15
  • 2021-11-03
相关资源
相似解决方案