【问题标题】:Cloud TPU tools not generating profileCloud TPU 工具未生成配置文件
【发布时间】:2018-10-25 21:57:16
【问题描述】:

我已按照Cloud TPU Tools 上的说明进行操作。除了必须将 --tpu_name 更改为 --tpu 的第 4 步之外,一切似乎都按预期工作。

失败的是“个人资料”标签的生成。我执行了

capture_tpu_profile --tpu_name=$TPU_NAME --logdir=${model_dir}

生产的

Welcome to the Cloud TPU Profiler v1.6.0
Starting to profile TPU traces for 2000 ms. Remaining attempt(s): 3
Limiting the number of trace events to 1000000
Profile session succeed for host(s):10.240.1.2

我多次刷新/重新启动 TensorBoard,但没有“配置文件”选项卡,从下拉菜单中单击“配置文件”不会返回任何数据。

这是 Cloud TPU 分析器的已知问题吗?

--编辑1--

Profiler v 1.5.2 未能收集跟踪事件。

Welcome to the Cloud TPU Profiler v1.5.2
Starting to profile TPU traces for 2000 ms. Remaining attempt(s): 3
Limiting the number of trace events to 1000000
No trace event is collected. Automatically retrying.

Starting to profile TPU traces for 2000 ms. Remaining attempt(s): 2
Limiting the number of trace events to 1000000
No trace event is collected. Automatically retrying.

Starting to profile TPU traces for 2000 ms. Remaining attempt(s): 1
Limiting the number of trace events to 1000000
No trace event is collected after 3 attempt(s). Perhaps, you want to try again (with more attempts?).
Tip: increase number of attempts with --num_tracing_attempts.

【问题讨论】:

    标签: tensorflow google-cloud-platform tensorboard google-cloud-tpu


    【解决方案1】:

    你能用Cloud TPU Profiler 1.5.2再试一次吗?

    pip install cloud-tpu-profiler==1.5.2

    Cloud TPU profiler 1.6.0 和 worker 列表功能仅在 tensorflow 的当前 master 分支中支持,而使用以下命令时向后兼容 tf-1.8 capture_tpu_profile —service_addr=10.240.1.2 —logdir=${model_dir}

    【讨论】:

    • 它似乎不起作用。使用 Cloud TPU Profiler v1.6.0,至少可以解析跟踪事件(请参阅问题中的输出)。但是在 v1.5.2 中,分析器无法收集任何跟踪事件。 v 1.5.2 的输出被添加到问题中。另外,我认为我不能在您的评论中使用service_addr,所以我使用了--tpu_name
    • 如果过早开始跟踪捕获,TPU 可能仍在启动,您可能无法收集到任何跟踪事件。您可以添加 --duration_ms 标志和/或 --num_tracing_attempts 标志来增加分析持续时间并在没有收集到跟踪事件时自动重试跟踪收集: capture_tpu_profile --tpu_name=$TPU_NAME --logdir=${model_dir} - -duration_ms=60000 --num_tracing_attempts=10
    • 秋敏,感谢您跟进问题。也许我在上一条评论中没有说清楚:对于相同的 ${model_dir},v1.6.0 可以通过配置文件会话成功,但 v1.5.2 失败了。在 TPU 完成任务后,两次尝试都执行得很好,因此不太可能过早捕获。但我会试一试并报告。再次感谢!
    猜你喜欢
    • 1970-01-01
    • 2014-05-30
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2010-09-08
    相关资源
    最近更新 更多