【发布时间】:2019-02-13 13:28:56
【问题描述】:
是否可以在使用 Tensorflow Serving 进行推理时启用 XLA 编译?
(我希望这只是未记录的配置问题,并且我可以避免实现自定义 Servable)。
【问题讨论】:
-
在 tensorflow 服务源中提到了 XLA。它仍然依赖于 tensorflow,所以如果你从源代码编译它,它会获取 tensorflow 源代码,先编译它,然后再编译服务。我会尝试从源代码构建并尝试使用 XLA 优化模型。如果失败,您可能需要与 Bazel 一起玩,以便您负责构建选项。
-
我看到预热 protobuf 中提到了 XLA,这是有道理的,因为您希望在服务生产流量之前完成 JIT。据我了解,XLA 提前编译仅适用于移动目标。对于正常的 GPU XLA 加速,您需要使用 TF 会话 ConfigProto (graph_options.optimizer_options.global_jit_level) 打开它,但在 Tensorflow Serving 的情况下,我只提交冻结的图形定义。我无权访问框内的会话。
-
你明白了吗?
-
不。我最终改用了 Nvidia 的 TensorRT 推理服务器。
标签: tensorflow-serving tensorflow-xla