【发布时间】:2018-01-03 01:50:36
【问题描述】:
我想知道是否可以在 Google Dataflow 中运行自定义 Apache Beam Python 版本。公共存储库中不可用的版本(撰写本文时:0.6.0 和 2.0.0)。例如,来自 Apache Beam 官方存储库的 HEAD 版本,或与此相关的特定标签。
我知道按照官方documentation 中的描述打包自定义包(例如本地私有包)的可能性。有回答是questions 这里关于如何为其他一些脚本执行此操作。甚至还有一个 GIST guiding。
但是我还没有设法获得其官方存储库的主分支中可用的当前 Apache Beam 开发版本(或标记的版本)来打包并与我的脚本一起发送到 Google Dataflow。
例如,对于最新的可用标签,其 PiP 处理的链接为:git+https://github.com/apache/beam.git@v2.1.0-RC2#egg=apache_beam[gcp]&subdirectory=sdks/python 我得到如下信息:
INFO:root:Executing command: ['.../bin/python', '-m', 'pip', 'install', '--download', '/var/folders/nw/m_035l9d7f1dvdbd7rr271tcqkj80c/T/tmpJhCkp8', 'apache-beam==2.1.0', '--no-binary', ':all:', '--no-deps']
DEPRECATION: pip install --download has been deprecated and will be removed in the future. Pip now has a download command that should be used instead.
Collecting apache-beam==2.1.0
Could not find a version that satisfies the requirement apache-beam==2.1.0 (from versions: 0.6.0, 2.0.0)
No matching distribution found for apache-beam==2.1.0
有什么想法吗? (我想知道这是否可能,因为 Google Dataflow 可能已经修复了可以运行到官方发布的版本的 Apache Beam。
【问题讨论】:
标签: python google-cloud-dataflow apache-beam