【发布时间】:2011-11-25 20:32:59
【问题描述】:
我目前正在开发一个使用 Apache HttpClient 4.1.2 的项目,它从网站检索一些数据。
应用程序的作用:它进入一个网页,然后进入下一个(找到的)页面,直到它到达末尾(例如:转到第 1 页 -> 再找到 20 个页面 -> 每隔 20 个页面去一次) .问题是它在检索一些随机页面时卡住了,并且无法继续抓取。
这是一些代码:
DefaultHttpClient mainHttp;
HttpPost post;
HttpResponse response;
HttpEntity entity;
String s;
int curPage = 1;
int index = 0;
boolean ok = true;
...
while (ok) {
response = mainHttp.execute(post);
entity = response.getEntity();
if (entity != null) {
System.out.println("Enter " + curPage);
s = EntityUtils.toString(entity);
System.out.println("Exit " + curPage);
index = s.indexOf("[" + curPage + "]");
if (index > 0) {
parseContent();
} else {
ok = false;
}
}
}
在调试窗口中显示如下内容:
Enter 1
Exit 1
.
.
.
Enter n
我也在使用http请求分析器,我看到在卡住的页面上,数据没有被完全检索到(它没有到达</html>或页面末尾)。
在这种情况下,我该如何跳过或重试下载数据?谁能帮帮我?
谢谢!
LE:
实际设置为:
mainHttp.setHttpRequestRetryHandler(new DefaultHttpRequestRetryHandler(1, true));
mainHttp.getParams().setParameter("http.connection-manager.timeout", 15000);
mainHttp.getParams().setParameter("http.socket.timeout", 15000);
mainHttp.getParams().setParameter("http.connection.timeout", 15000);
其中15000 是以毫秒为单位的超时时间。
感谢您的帮助。
【问题讨论】:
标签: java apache httpclient