【发布时间】:2013-10-11 05:32:17
【问题描述】:
我需要从给定域的所有页面中获取所有 url,
我认为使用后台作业将它们放在多个队列中是有意义的
尝试使用 cobweb 但它似乎很令人困惑的宝石,
还有anomone,如果页面很多,海葵会工作很长时间
require 'anemone'
Anemone.crawl("http://www.example.com/") do |anemone|
anemone.on_every_page do |page|
puts page.links
end
end
你觉得什么最适合我?
【问题讨论】:
-
您需要为您的站点生成站点地图吗?
-
@AjayKumar 不,我只需要从网站获取所有链接
-
wget httrack 还有很多其他你可以使用的蜘蛛
标签: ruby-on-rails web-crawler resque anemone