【发布时间】:2017-09-29 05:32:05
【问题描述】:
我正在运行几个月前上次运行的数据流。来自同一个客户端,具有相同的数据流版本 (0.7.0dev0)。不幸的是,它以前所未有的神秘方式失败了。
我开始工作了,第一阶段是:
(8733429d016bc2fb): 执行从datastore读取/Split Query+从datastore读取/GroupByKey/Reify+从datastore读取/GroupByKey/Write的操作
但它在 1 小时后给出以下错误:
(e88cb3c076926976):工作流程失败。原因:(e88cb3c07692626f): 数据流似乎卡住了。请通过以下方式与 Dataflow 团队联系 http://stackoverflow.com/questions/tagged/google-cloud-dataflow.
如果有帮助,JobID 是 2017-08-21_00_30_03-3588685705436948852。我会升级到更新版本的库,但这涉及更多的 API 更改,并弄清楚如何让所有部分再次工作。所以我现在正在努力。我希望“一个以前有效但目前失败的简单用例”可能比改变更多的东西更容易调试。
我不确定如何调试或进一步调查。几个月前它使用相同的代码工作,但现在不能工作(使用 4-5 倍大的数据集,200-300K 记录,没什么疯狂的......)
【问题讨论】:
-
您能分享一个工作 ID 或您的管道的更多详细信息吗?是否可以升级到新版本?
-
好的,升级到 2.0.0 后似乎一切正常! (需要一些导入修复,修改我下载/导入 apache-beam 的方式等)我认为 gcloud 服务器上只有一些不支持 0.7.0-dev 版本的 bitrot...
-
我遇到了这个确切的问题,工作过去需要 4-6 分钟,但现在工作没有结束,而是刚刚开始,它在
GroupByKey和 @ 上显示partially running状态987654324@UserQuery和SplitQuery。我使用的是 2.1.0 python SDK,尝试使用 2.0.0 SDK,但错误仍然存在。我该怎么做? @BenChambers -
@BenChambers 我正在处理的数据的大小也没有改变,由于工作过去需要 4-5 分钟,我停止了所有运行超过 10 分钟的工作,我试着检查一下显示
workflow-failed错误 -
请提出一个新问题——因为您已经在使用较新的 SDK 并且可能有不同的管道,因此很可能是不同的问题。工作 ID 也将是进一步挖掘所必需的。