【发布时间】:2014-01-23 04:49:02
【问题描述】:
是否有任何选项可以使用 ruby 仅从网页中提取内容。 (避免链接和其他东西)
【问题讨论】:
标签: ruby ruby-on-rails-4 boilerpipe
是否有任何选项可以使用 ruby 仅从网页中提取内容。 (避免链接和其他东西)
【问题讨论】:
标签: ruby ruby-on-rails-4 boilerpipe
要进行网络抓取,您应该使用 gem mechanize 和 nokogiri 进行 dom 解析。
【讨论】:
Mechanize 是该工作最快的库,nokogiri 将允许您只抓取您想要的页面部分。 (文章)
我会推荐Scrapy。它是 Python,而不是 Ruby,但您只需花费很少的精力就可以做到这一点非常棒。
【讨论】: