【发布时间】:2020-12-09 19:32:47
【问题描述】:
我有一个 Beam 管道,它从 pubsub 主题读取数据,进行一些小的转换,然后将事件写入一些 BigQuery 表。
变换处理很轻松,可能会删除一个字段或其他东西,但是,如下图所示,对于某些步骤,Wall Time 非常高。究竟是什么原因造成的?
每个元素实际上都是((str, str, str), {**dict with data}) 形式的元组。通过这个键,我们实际上试图通过这个键获取最新事件来进行简单的重复数据删除。
基本上我在Get latest element per key 之后添加的任何内容都很慢,并且标记也很慢,即使它只是向元素添加了一个标签。
【问题讨论】:
标签: python-3.x google-cloud-dataflow apache-beam