【发布时间】:2023-03-18 08:13:01
【问题描述】:
我开始编写爬虫来从不同的网站获取数据。我在 rake 文件中构建了第一个刮板,现在开始编写第二个 rake 文件以从第二个站点获取数据。目前,我正在为我感兴趣的每个网站编写一个特定的抓取工具(而不是尝试构建一个通用的抓取工具)。
我有 3 个问题:
编写 rake 任务对我来说是一个不错的选择吗?我应该考虑其他替代方案吗?
如何将函数/方法添加到我的 rake 文件中? (对不起,非常愚蠢的问题,但我不知道如何构建我的代码......所以现在它只是一个长方法中的 500 行不间断代码)例如,我想要一个“get_description(section) " 从页面返回描述的方法。该方法可能会有所不同,具体取决于我正在抓取的网站。
如何使用 RSpec 测试我的任务?我想提供一个链接,并确保我的任务输出符合我的预期
感谢您的帮助!
【问题讨论】:
标签: ruby-on-rails rspec screen-scraping rake