【问题标题】:web crawler in rails,how to crawl all pages of the siterails中的网络爬虫,如何爬取网站的所有页面
【发布时间】:2013-10-11 05:32:17
【问题描述】:

我需要从给定域的所有页面中获取所有 url,
我认为使用后台作业将它们放在多个队列中是有意义的
尝试使用 cobweb 但它似乎很令人困惑的宝石,
还有anomone,如果页面很多,海葵会工作很长时间

require 'anemone'

Anemone.crawl("http://www.example.com/") do |anemone|
  anemone.on_every_page do |page|
      puts page.links
  end
end

你觉得什么最适合我?

【问题讨论】:

  • 您需要为您的站点生成站点地图吗?
  • @AjayKumar 不,我只需要从网站获取所有链接
  • wget httrack 还有很多其他你可以使用的蜘蛛

标签: ruby-on-rails web-crawler resque anemone


【解决方案1】:

你可以使用Nutch爬虫,Apache Nutch是一个高度可扩展和可扩展的开源网络爬虫软件项目。

【讨论】:

  • 我觉得蜘蛛网最适合我
猜你喜欢
  • 1970-01-01
  • 2019-10-26
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2020-02-18
  • 2015-07-31
  • 1970-01-01
相关资源
最近更新 更多