【发布时间】:2011-04-20 17:39:16
【问题描述】:
我正在使用Anemone 进行一些网络爬取。我将爬取的结果存储在 MongoDB 中。 Anemone 可以很容易地做到这一点:
Anemone.crawl("http://www.example.com/") do |anemone|
anemone.storage = Anemone::Storage.MongoDB
end
但是,使用上面的代码,Anemone 收集并存储了很多我不需要的信息,包括每个页面的响应。我只需要存储 URL。而且,尽管花时间在the documentation 上,但我不知道如何告诉 Anemone不 存储某些信息。
谁能给点建议?
【问题讨论】:
-
“我如何使用它?” main rubyforge project page 上的部分似乎正朝着满足您需求的方向发展。
标签: ruby mongodb web-scraping web-crawler