自主运行python网页抓取脚本

【问题标题】：Run python web scraping script autonomously自主运行python网页抓取脚本
【发布时间】：2021-05-10 13:47:54
【问题描述】：

我在 python 中有一个网络抓取脚本，它可以访问特定网站，使用我的凭据登录并执行一些操作（例如按下某些按钮等）。我想在特定的时间间隔（比如早上 8 点到下午 3 点之间每 1 小时运行一次）运行这个脚本。

我发现像 cron 作业这样的东西可以处理时间部分。但我也希望它独立于我的设备运行。所以我想知道是否可以将代码托管在某个服务器上并使其在上述时间自主运行。

【问题讨论】：

【解决方案1】：

当然它可以远程运行，有很多选项可以做到这一点。例如，您可以使用AWS lambda（该示例使用 nodejs 网络服务器，但也可以使用 python 脚本完成）并创建一个运行您的 python 脚本的处理程序文件，然后使用 cloudwatch 事件来安排它运行（它是以类似 cron 的方式进行编辑）。

问题是，你想对抓取的结果做什么。毕竟，你可能想把它保存在某个地方！

为此有多种选择，我现在能想到的两个是：

将其保存到 RDS (DB)
将其保存为 S3 上的文件

【讨论】：