文章提取 - Ruby [关闭]答案

【问题标题】：Article Extraction - Ruby [closed]文章提取 - Ruby [关闭]
【发布时间】：2014-01-23 04:49:02
【问题描述】：

是否有任何选项可以使用 ruby 仅从网页中提取内容。（避免链接和其他东西）

【问题讨论】：

【解决方案1】：

要进行网络抓取，您应该使用 gem mechanize 和 nokogiri 进行 dom 解析。

【讨论】：

我曾使用 mechanize 来报废，但boilerpipe 库在python 中仅提取网页的文章内容时效果更好。我想知道有没有类似boilerpipe的gem。
Mechanize 是该工作最快的库，nokogiri 将允许您只抓取您想要的页面部分。（文章）
是否可以在不使用 mechanize 和 nokogiri 传递 css 或 html 标签的情况下从不同的网站抓取内容？？？？
不解析 dom 就无法使用任何工具进行抓取。你需要告诉它你想抓取什么。
不，我不会分享我的个人联系信息。如果您需要帮助，请在此处发布您的问题，有人会回复。我需要尽快去，所以如果你想分享 URL，我可以让你开始使用 XPATH

【解决方案2】：

我会推荐Scrapy。它是 Python，而不是 Ruby，但您只需花费很少的精力就可以做到这一点非常棒。

【讨论】：