【发布时间】:2018-09-07 07:02:26
【问题描述】:
我想通过数据流流作业使用来自 pubsub 的数据并将其存储到 GCS 中的每小时目录中。
最好的方法是什么?
我尝试使用 WindowedFilenamePolicy,但它添加了一个额外的 group by 并在写入时减慢了写入操作。 Dataflow 正确缓冲数据,但在临时存储桶中写入数据需要很长时间。
对于这种相当常见的情况有什么最佳实践吗?
问候, 帕里
【问题讨论】:
标签: google-cloud-platform google-cloud-dataflow google-cloud-pubsub