【发布时间】:2017-10-04 15:20:11
【问题描述】:
我正在使用 Google 数据流服务为 ETL 运行一些 apache-beam 脚本。
这些作业最初需要 4-5 分钟才能完成,但现在它们在一个小时后失败并出现以下错误。
工作流程失败。原因: (35af2d4d3e5569e4):数据流似乎卡住了。
看来工作实际上并没有开始。
我是使用 python SDK 2.1.0 执行它作为 this 问题的答案提到切换 SDK,我尝试使用 python SDK 2.0.0 执行它,但没有运气。
职位编号为:2017-09-28_04_28_31-11363700448712622518
更新:
在@BenChambers 建议检查日志后,由于工人启动失败,作业似乎没有启动
日志显示以下日志 4 次(如数据流文档中所述,捆绑包在声明失败之前尝试了 4 次)
Running setup.py install for dataflow-worker: finished with status 'done'
Successfully installed dataflow-worker-2.1.0
Executing: /usr/local/bin/pip install /var/opt/google/dataflow/workflow.tar.gz
Processing /var/opt/google/dataflow/workflow.tar.gz
Complete output from command python setup.py egg_info:
Traceback (most recent call last):
File "<string>", line 1, in <module>
IOError: [Errno 2] No such file or directory: '/tmp/pip-YAAeGg-build/setup.py'
----------------------------------------
Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-YAAeGg-build/
/usr/local/bin/pip failed with exit status 1
Dataflow base path override: https://dataflow.googleapis.com/
Failed to report setup error to service: could not lease work item to report failure (no work items returned)
【问题讨论】:
标签: python google-cloud-dataflow apache-beam