【发布时间】:2020-07-22 17:22:38
【问题描述】:
我正在尝试使用 Google Cloud Dataflow 将 Google PubSub 消息写入 Google Cloud Storage。 PubSub 消息采用 json 格式,我想要执行的唯一操作是从 json 转换为 parquet 文件。
在官方文档中,我找到了 google 提供的模板,该模板从 Pub/Sub 主题中读取数据并将 Avro 文件写入指定的 Cloud Storage 存储桶 (https://cloud.google.com/dataflow/docs/guides/templates/provided-streaming#pubsub-to-cloud-storage-avro)。问题是模板源代码是用Java编写的,而我更喜欢使用Python SDK。
这些是我对 Dataflow 和 Beam 进行的第一次测试,网上并没有很多资料可供参考。任何建议、链接、指导、代码片段将不胜感激。
【问题讨论】:
-
是的,非常感谢@AlexandreMoraes!我见过名为 WriteToParquet() 的 PTtransform 方法,但我正在寻找他们使用它的示例。您发送给我的代码链接是一个很好的起点!
-
@fedex Here 这应该是您使用 WriteToParquet() 方法的良好开端。当您继续编写代码时,您可以发布其他问题并获得更具体的帮助。同时,我能否总结一下我分享的这些信息作为答案,以便进一步为社区做出贡献?
-
@AlexandreMoraes 是的,当然,它当然可以帮助任何其他从事类似用例的人。
标签: python google-cloud-platform google-cloud-dataflow apache-beam