Ruby 替代 Scrapy？ [关闭]答案

【问题标题】：Ruby alternative to Scrapy? [closed]Ruby 替代 Scrapy？ [关闭]
【发布时间】：2011-08-20 07:40:42
【问题描述】：

有哪些基于 Ruby 的工具可以帮助我实现类似于 Scrapy 为 python 所做的事情？ http://doc.scrapy.org/intro/overview.html

【问题讨论】：

你可能只想试一试scrapy。它似乎有出色的文档和非常友好的 API。如果您熟悉 ruby 拾取 python 可能不会花费您超过一两天的时间。它们是极其相似的语言。
@zeekay，你的意思是scrappy？
不，他询问了一个 ruby 替代 scrapy，它是一个用于爬取网站和提取结构化数据的 python 应用程序框架。我只是指出学习python很容易，他还不如直接使用它（假设没有找到令人满意的替代品）。
用于 HTML 解析的 Ruby 工具箱：ruby-toolbox.com/categories/html_parsing.html。 HTTP 客户端：ruby-toolbox.com/categories/http_clients.html

【解决方案1】：

Mechanize 建立在 Nokogiri 之上。

Nokigiri 基于 XPath。

Hpricot 是另一个工具。

Scrapi 基于 CSS 选择器来提取信息，但根据我的测试，它的执行速度比 Nokogiri 慢。

我确定还有其他人，但这些是我遇到的。

如果您没有找到解决问题的单一工具，请查看 Anemone 之类的网络爬虫库，并将其与上面列出的低级抓取框架之一结合使用。

或者继续学习 Python。它会扩大你在编程世界中的业力。

【讨论】：

据我所知（我不懂 Ruby），这些模块只是 HTML/XML 解析器，而不是像 Scrapy 这样的抓取框架。
@Acorn - 这些都是抓取框架。他们没有的是爬虫或蜘蛛。抓取与抓取正交。
但是.. 爬行只是 Scrapy 的一方面。它具有许多适用于任何类型的抓取的功能，例如用于存储结果的项目和管道。您链接到的工具似乎类似于 lxml 或 BeautifulSoup 而不是 Scrapy。
@Acorn - 没错，Nokogiri、Hpricot 和 Scrapi 用于从单个页面中提取数据。 scRUBYt 可以选择以下链接，但它们的文档不是很好。还有一个我没有列出的工具 - Mechanize，它是基于 Nokigiri 构建的，似乎是完成这项工作的更好工具。
@Acorn, @Anurag - 我正在寻找更类似于 Scrapy 的东西，它也使得爬虫变得容易。使用 nogogiri 从单个页面中提取非常容易，但是遍历页面以获取单个帖子的链接是一种痛苦。但我想我也可以去学习 Python :-)

【解决方案2】：

您也可以查看Anemone

【讨论】：