【发布时间】:2018-03-24 23:06:32
【问题描述】:
我正在处理一些非常简单的图像处理步骤。 步骤如下:
- 从 aws s3 下载特定 ID 的图像
- 将图像从 gif 或其他格式重新格式化为 jpg
- 检查图片大小
- 如果可能,调整图像大小(只是在考虑:上采样/下采样图像 - 尚不确定该步骤是否即将到来)
- 对图像进行分类并更新数据库信息
- 获取下一个 id 并重复 1。
如果我必须快速实现它而不考虑我只会为每个步骤编写一个带有子函数的简单 python 脚本(如果出现问题,则抛出异常 - 有些步骤很高兴像 (4.) 其他步骤像 (5 .) 是必要的)。
我听说了 luigi 和流水线,想知道这是否是一个用例。
使用 luigi 之类的东西或其他东西有什么好处 - 对于我尝试处理的问题是否有最佳实践?
现在给你一些数字,我有大约 20GB 的数据和超过 100k 的图像。每天有大约 10k+ 图像需要处理。
非常感谢!
【问题讨论】:
标签: image-processing pipeline luigi