【问题标题】:Write pubsub data to gcs through dataflow通过dataflow将pubsub数据写入gcs
【发布时间】:2018-09-07 07:02:26
【问题描述】:

我想通过数据流流作业使用来自 pubsub 的数据并将其存储到 GCS 中的每小时目录中。

最好的方法是什么?

我尝试使用 WindowedFilenamePolicy,但它添加了一个额外的 group by 并在写入时减慢了写入操作。 Dataflow 正确缓冲数据,但在临时存储桶中写入数据需要很长时间。

对于这种相当常见的情况有什么最佳实践吗?

问候, 帕里

【问题讨论】:

    标签: google-cloud-platform google-cloud-dataflow google-cloud-pubsub


    【解决方案1】:

    使用流式管道from Cloud Pub/Sub to Google Cloud Storage files 的 Google 提供的数据流模板,您可以通过将 outputDirectory 设置为 gs://<BUCKET>/YYYY/MM/DD/HH/ 轻松做到这一点,它将自动替换 YYYY、MM、DD 和 HH 为间隔窗口的值.

    【讨论】:

    • 谢谢内里。我正在使用非常相似的代码,但它会减慢对 GCS 的写入速度。
    • 此模板默认有一个5分钟的窗口,因此它每5分钟创建一个文件,您可以使用其source code中提供的示例用法并将窗口持续时间调整为最小1s。
    猜你喜欢
    • 2018-12-30
    • 1970-01-01
    • 2015-12-14
    • 2020-04-05
    • 2019-02-18
    • 2020-12-27
    • 2017-12-23
    • 2023-03-29
    • 2020-12-11
    相关资源
    最近更新 更多