【发布时间】:2019-01-09 02:59:30
【问题描述】:
我最近开始学习写爬虫,参考别人的代码,部分代码是下载目标网站的http url页面,所以用到了HttpUrlConnection模块,不过这么努力我还是看不懂下面的代码,谁能提供一些基本的参考资料让我理解或解释一下?
connection = (HttpURLConnection) url.openConnection();
connection.setRequestProperty("charset", encoding);
connection.setRequestMethod("GET");
connection.setConnectTimeout( 100000 );
connection.setReadTimeout( 100000 );
connection.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.2; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)");
first,我不知道为什么connection = (HttpURLConnection) url.openConnection()是这样写的,通常我们写HttpURLConnection connection=new HttpURLConnection(),我的意思是我们通过这种方式创建一个对象;
下一个我的意思是我知道那些设置的语法,这都是关于设置客户端请求的标头,但我只是不知道这些 set sytaxes 用于什么?为什么将它们设置为这些值而不是其他值?
我阅读了Core Java Volume 2的相关章节,但它无法回答我的问题,我google了很多,但找不到关于这些集合语法的解释,任何帮助将不胜感激,谢谢~
【问题讨论】:
标签: url header web-crawler httpurlconnection