【发布时间】:2021-07-29 16:37:45
【问题描述】:
我正在处理 Kubeflow 的一个遗留项目,管道有一些组件,以便将某种过滤器应用于数据框。
为了做到这一点,每个组件从 S3 下载数据帧应用过滤器并再次将其上传到 S3。
在数据框用于训练或验证模型的组件中,从 S3 下载数据框。
问题在于这是最佳实践,还是直接在组件之间共享数据帧更好,因为上传到 S3 可能会失败,然后管道失败。
谢谢
【问题讨论】:
标签: python dataframe amazon-s3 kubeflow kubeflow-pipelines