“数据流似乎被卡住了”答案

【问题标题】："The Dataflow appears to be stuck"“数据流似乎被卡住了”
【发布时间】：2017-09-29 05:32:05
【问题描述】：

我正在运行几个月前上次运行的数据流。来自同一个客户端，具有相同的数据流版本 (0.7.0dev0)。不幸的是，它以前所未有的神秘方式失败了。

我开始工作了，第一阶段是：

(8733429d016bc2fb): 执行从datastore读取/Split Query+从datastore读取/GroupByKey/Reify+从datastore读取/GroupByKey/Write的操作

但它在 1 小时后给出以下错误：

(e88cb3c076926976)：工作流程失败。原因：（e88cb3c07692626f）：数据流似乎卡住了。请通过以下方式与 Dataflow 团队联系 http://stackoverflow.com/questions/tagged/google-cloud-dataflow.

如果有帮助，JobID 是 2017-08-21_00_30_03-3588685705436948852。我会升级到更新版本的库，但这涉及更多的 API 更改，并弄清楚如何让所有部分再次工作。所以我现在正在努力。我希望“一个以前有效但目前失败的简单用例”可能比改变更多的东西更容易调试。

我不确定如何调试或进一步调查。几个月前它使用相同的代码工作，但现在不能工作（使用 4-5 倍大的数据集，200-300K 记录，没什么疯狂的......）

【问题讨论】：

您能分享一个工作 ID 或您的管道的更多详细信息吗？是否可以升级到新版本？
好的，升级到 2.0.0 后似乎一切正常！（需要一些导入修复，修改我下载/导入 apache-beam 的方式等）我认为 gcloud 服务器上只有一些不支持 0.7.0-dev 版本的 bitrot...
我遇到了这个确切的问题，工作过去需要 4-6 分钟，但现在工作没有结束，而是刚刚开始，它在 GroupByKey 和 @ 上显示 partially running 状态987654324@ UserQuery 和 SplitQuery。我使用的是 2.1.0 python SDK，尝试使用 2.0.0 SDK，但错误仍然存在。我该怎么做？ @BenChambers
@BenChambers 我正在处理的数据的大小也没有改变，由于工作过去需要 4-5 分钟，我停止了所有运行超过 10 分钟的工作，我试着检查一下显示workflow-failed 错误
请提出一个新问题——因为您已经在使用较新的 SDK 并且可能有不同的管道，因此很可能是不同的问题。工作 ID 也将是进一步挖掘所必需的。

【解决方案1】：

通过升级到 2.0.0 解决了这个问题（感谢 Ben Chambers！）似乎 0.7.0 不再适用于云数据流。

【讨论】：