【问题标题】:Ruby alternative to Scrapy? [closed]Ruby 替代 Scrapy? [关闭]
【发布时间】:2011-08-20 07:40:42
【问题描述】:

有哪些基于 Ruby 的工具可以帮助我实现类似于 Scrapy 为 python 所做的事情? http://doc.scrapy.org/intro/overview.html

【问题讨论】:

  • 你可能只想试一试scrapy。它似乎有出色的文档和非常友好的 API。如果您熟悉 ruby​​ 拾取 python 可能不会花费您超过一两天的时间。它们是极其相似的语言。
  • @zeekay,你的意思是scrappy
  • 不,他询问了一个 ruby​​ 替代 scrapy,它是一个用于爬取网站和提取结构化数据的 python 应用程序框架。我只是指出学习python很容易,他还不如直接使用它(假设没有找到令人满意的替代品)。
  • 用于 HTML 解析的 Ruby 工具箱:ruby-toolbox.com/categories/html_parsing.html。 HTTP 客户端:ruby-toolbox.com/categories/http_clients.html

标签: python ruby screen-scraping scrapy


【解决方案1】:

Mechanize 建立在 Nokogiri 之上。

Nokigiri 基于 XPath。

Hpricot 是另一个工具。

Scrapi 基于 CSS 选择器来提取信息,但根据我的测试,它的执行速度比 Nokogiri 慢。

scRUBYt

我确定还有其他人,但这些是我遇到的。

如果您没有找到解决问题的单一工具,请查看 Anemone 之类的网络爬虫库,并将其与上面列出的低级抓取框架之一结合使用。

或者继续学习 Python。它会扩大你在编程世界中的业力。

【讨论】:

  • 据我所知(我不懂 Ruby),这些模块只是 HTML/XML 解析器,而不是像 Scrapy 这样的抓取框架。
  • @Acorn - 这些都是抓取框架。他们没有的是爬虫或蜘蛛。抓取与抓取正交。
  • 但是.. 爬行只是 Scrapy 的一方面。它具有许多适用于任何类型的抓取的功能,例如用于存储结果的项目和管道。您链接到的工具似乎类似于 lxml 或 BeautifulSoup 而不是 Scrapy。
  • @Acorn - 没错,Nokogiri、Hpricot 和 Scrapi 用于从单个页面中提取数据。 scRUBYt 可以选择以下链接,但它们的文档不是很好。还有一个我没有列出的工具 - Mechanize,它是基于 Nokigiri 构建的,似乎是完成这项工作的更好工具。
  • @Acorn, @Anurag - 我正在寻找更类似于 Scrapy 的东西,它也使得爬虫变得容易。使用 nogogiri 从单个页面中提取非常容易,但是遍历页面以获取单个帖子的链接是一种痛苦。但我想我也可以去学习 Python :-)
【解决方案2】:

您也可以查看Anemone

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2011-04-13
    • 1970-01-01
    • 1970-01-01
    • 2011-06-05
    • 2020-10-16
    • 2010-09-22
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多