zhizhupan

Java实现百度网盘爬虫,建立百度网盘资源搜索站

在这之前看到一个网站 --盘多多

日ip有20万 是我每次搜索资源的时候 都会用到的一个站

不多说了 不感兴趣的同学可以绕过!

在网上搜索的爬虫都是用python写的 但是本屌丝也不会

闲来无事 上周末在家就研究研究

首先刚开始用的jsop解析的网页 

但是能够获取到网页的标题 总的记录数 重要的资源信息没有获取到 没办法

失败第一次!!!

 

又用了网上说的htmlutil 可以完全获取整个网页的信息 但是速度很慢

而且不能采集一个用户的所有信息  说明白一点就是不能分页吧  

因为百度网盘的资源都是使用ajax获取的

又失败了!!!

 

然后使用抓包工具

这里用的火狐的firebug

获取到后台的请求数据的请求路径 使用  httpclient请求 模拟百度refere 

最后成功了!!! ^_^ ^_^ ^_^ ^_^

然后购买了代理

实测一天100w的数据量  这样以后找资源就特别的方便啦,嘿嘿

这些就是我完成 蜘蛛网盘 的所有经历过程 现在已经有快1000万的数据了

 

大家可以去试试!!!

 

来源:蜘蛛网盘  zhizhupan.com

 

分类:

技术点:

相关文章: