【发布时间】:2010-02-26 14:42:47
【问题描述】:
我正在制作一个爬虫,在 http://manga.bleachexile.com/gantz-chapter-1.html 等上的 Gantz 漫画上解析图像。
在我的爬虫尝试打开图像之前,我取得了成功(第 273 章):
错误的 URI(不是 URI?):http://static.bleachexile.com/manga/gantz/273/Gantz[0273]_p001[Whatever-Illuminati].png
但我猜这个网址是有效的,因为我可以从 Firefox 中打开。有什么想法吗?
部分代码:
img_link = nav.page.image_urls.find {|x| x.include?("manga/gantz")}
img_name = RAILS_ROOT+"/public/#{nome}/#{cap}/"+nome+((template).sub('::cap::', cap.to_s).sub('::pag::', i.to_s))
img = File.new( img_name, 'w' )
img.write( open(img_link) {|f| f.read} )
img.close
【问题讨论】:
标签: ruby url url-routing web-crawler