【发布时间】:2021-12-12 14:43:31
【问题描述】:
我有一个网络抓取工具,可以从电子商务网站抓取数据,现在,我的数据从 pandas 数据帧存储在 BigQuery 表中。但我正在手动完成所有这些事情。例如,从 GCP 站点启动 VM 实例,然后用远程 SSH 连接我的本地计算机,然后在项目文件夹中打开终端,然后运行
$ python main.py
开始抓取。然后在该过程完成后,我再次手动关闭 VM 实例。 现在,我想要的是自动化这个任务,它会在每个月的第一个日期自动启动VM实例,然后抓取电子商务站点数据,然后当程序完成时,它会自动关闭虚拟机实例。
我的程序需要将近 40 小时才能完成从电子商务网站获取所有数据。我一直在寻找 Cloud Functions,我看到最大时间限制是 540 seconds 。由于我的程序需要很长时间才能执行,我不确定云功能是否适合我的情况。
是否有任何解决方案可以自动化这些流程?我是 GCP 的新手,如果是一个非常琐碎的问题,我很抱歉。
【问题讨论】:
标签: python google-cloud-platform google-cloud-functions