【问题标题】:"The Dataflow appears to be stuck"“数据流似乎被卡住了”
【发布时间】:2017-09-29 05:32:05
【问题描述】:

我正在运行几个月前上次运行的数据流。来自同一个客户端,具有相同的数据流版本 (0.7.0dev0)。不幸的是,它以前所未有的神秘方式失败了。

我开始工作了,第一阶段是:

(8733429d016bc2fb): 执行从datastore读取/Split Query+从datastore读取/GroupByKey/Reify+从datastore读取/GroupByKey/Write的操作

但它在 1 小时后给出以下错误:

(e88cb3c076926976):工作流程失败。原因:(e88cb3c07692626f): 数据流似乎卡住了。请通过以下方式与 Dataflow 团队联系 http://stackoverflow.com/questions/tagged/google-cloud-dataflow.

如果有帮助,JobID 是 2017-08-21_00_30_03-3588685705436948852。我会升级到更新版本的库,但这涉及更多的 API 更改,并弄清楚如何让所有部分再次工作。所以我现在正在努力。我希望“一个以前有效但目前失败的简单用例”可能比改变更多的东西更容易调试。

我不确定如何调试或进一步调查。几个月前它使用相同的代码工作,但现在不能工作(使用 4-5 倍大的数据集,200-300K 记录,没什么疯狂的......)

【问题讨论】:

  • 您能分享一个工作 ID 或您的管道的更多详细信息吗?是否可以升级到新版本?
  • 好的,升级到 2.0.0 后似乎一切正常! (需要一些导入修复,修改我下载/导入 apache-beam 的方式等)我认为 gcloud 服务器上只有一些不支持 0.7.0-dev 版本的 bitrot...
  • 我遇到了这个确切的问题,工作过去需要 4-6 分钟,但现在工作没有结束,而是刚刚开始,它在 GroupByKey 和 @ 上显示 partially running 状态987654324@ UserQuerySplitQuery。我使用的是 2.1.0 python SDK,尝试使用 2.0.0 SDK,但错误仍然存​​在。我该怎么做? @BenChambers
  • @BenChambers 我正在处理的数据的大小也没有改变,由于工作过去需要 4-5 分钟,我停止了所有运行超过 10 分钟的工作,我试着检查一下显示workflow-failed 错误
  • 请提出一个新问题——因为您已经在使用较新的 SDK 并且可能有不同的管道,因此很可能是不同的问题。工作 ID 也将是进一步挖掘所必需的。

标签: google-cloud-dataflow


【解决方案1】:

通过升级到 2.0.0 解决了这个问题(感谢 Ben Chambers!)似乎 0.7.0 不再适用于云数据流。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多