【问题标题】:Google Cloud Dataflow Python SDK updatesGoogle Cloud Dataflow Python SDK 更新
【发布时间】:2023-04-07 12:31:01
【问题描述】:

在使用 Google Cloud Dataflow Python SDK 时,开始从 Cloud Storage 读取大量数据需要一段时间,并导致错误 AssertionError: Job did not reach to a terminal state after waiting indefinitely

通过搜索,我们发现了未解决的问题 BEAM-5529,它指的是在 2.8.0 版中发布的补丁 #6535,但在发行说明中没有。

另一方面,当前发布的版本是 google-cloud-dataflow 2.5.0

有任何更新政策,还是由个人负责编译和生成具有最新版本的新版本?

欢迎任何帮助或评论。

【问题讨论】:

标签: python google-cloud-dataflow apache-beam


【解决方案1】:

根据谷歌云平台官方文档here

Cloud Dataflow SDK 2.5.0 是独立于 Apache Beam SDK 版本的最后一个 Cloud Dataflow SDK 版本。 Cloud Dataflow 服务完全支持官方 Apache Beam SDK 版本。

是的,google-cloud-dataflow 2.5.0 是最后一个版本,从该版本开始,您应该使用官方的 apache-beam 版本。请记住you will need to install the library using the extra [gcp]:

pip install apache-beam[gcp]

最后,the fix in 6535 应该已经应用了,因为我安装了库“pip install apache-beam[gcp]===2.8.0”并且我转到了文件“apache_beam/runners/dataflow/dataflow_runner.py "并且它在那里应用了修复程序。

【讨论】:

    猜你喜欢
    • 2020-10-27
    • 2022-11-11
    • 2015-05-29
    • 1970-01-01
    • 1970-01-01
    • 2019-02-21
    • 2018-07-28
    • 1970-01-01
    • 2016-11-26
    相关资源
    最近更新 更多