【问题标题】:Article Extraction - Ruby [closed]文章提取 - Ruby [关闭]
【发布时间】:2014-01-23 04:49:02
【问题描述】:

是否有任何选项可以使用 ruby​​ 仅从网页中提取内容。 (避免链接和其他东西)

【问题讨论】:

    标签: ruby ruby-on-rails-4 boilerpipe


    【解决方案1】:

    要进行网络抓取,您应该使用 gem mechanizenokogiri 进行 dom 解析。

    【讨论】:

    • 我曾使用 mechanize 来报废,但boilerpipe 库在python 中仅提取网页的文章内容时效果更好。我想知道有没有类似boilerpipe的gem。
    • Mechanize 是该工作最快的库,nokogiri 将允许您只抓取您想要的页面部分。 (文章)
    • 是否可以在不使用 mechanize 和 nokogiri 传递 css 或 html 标签的情况下从不同的网站抓取内容????
    • 不解析 dom 就无法使用任何工具进行抓取。你需要告诉它你想抓取什么。
    • 不,我不会分享我的个人联系信息。如果您需要帮助,请在此处发布您的问题,有人会回复。我需要尽快去,所以如果你想分享 URL,我可以让你开始使用 XPATH
    【解决方案2】:

    我会推荐Scrapy。它是 Python,而不是 Ruby,但您只需花费很少的精力就可以做到这一点非常棒。

    【讨论】:

    • 谢谢,我会通过Scrapy。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-06-09
    • 2014-01-13
    • 2014-06-14
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多