Java实现百度网盘爬虫,建立百度网盘资源搜索站
在这之前看到一个网站 --盘多多
日ip有20万 是我每次搜索资源的时候 都会用到的一个站
不多说了 不感兴趣的同学可以绕过!
在网上搜索的爬虫都是用python写的 但是本屌丝也不会
闲来无事 上周末在家就研究研究
首先刚开始用的jsop解析的网页
但是能够获取到网页的标题 总的记录数 重要的资源信息没有获取到 没办法
失败第一次!!!
又用了网上说的htmlutil 可以完全获取整个网页的信息 但是速度很慢
而且不能采集一个用户的所有信息 说明白一点就是不能分页吧
因为百度网盘的资源都是使用ajax获取的
又失败了!!!
然后使用抓包工具
这里用的火狐的firebug
获取到后台的请求数据的请求路径 使用 httpclient请求 模拟百度refere
最后成功了!!! ^_^ ^_^ ^_^ ^_^
然后购买了代理
实测一天100w的数据量 这样以后找资源就特别的方便啦,嘿嘿
这些就是我完成 蜘蛛网盘 的所有经历过程 现在已经有快1000万的数据了
大家可以去试试!!!
来源:蜘蛛网盘 zhizhupan.com