【发布时间】:2017-11-28 03:06:59
【问题描述】:
在只有一个 CPU 设备且网络仅用于推理的特定情况下,我对 TensorFlow 的执行模型有一些疑问,例如使用 Image Recognition(https://www.tensorflow.org/tutorials/image_recognition) C++ Example with a multi - 核心平台。
下面,我将尝试总结一下我的理解,同时提出一些问题。
Session->Run()(文件 direct_session.cc)调用 ExecutorState::RynAsynch,它用根节点初始化 TensorFlow 就绪队列。
然后,指令
runner_([=]() { Process(tagged_node, scheduled_usec); }); (executor.cc, function ScheduleReady, line 2088)
将节点(以及相关操作)分配给 inter_op 池的线程。 但是,我并不完全理解它是如何工作的。 例如,在 ScheduleReady 尝试分配比 inter_op 池大小更多的操作的情况下,操作如何入队?(FIFO 顺序?) 池的每个线程都有一个操作队列还是只有一个共享队列? 我在哪里可以在代码中找到这个? 在哪里可以找到池中每个线程的主体?
另一个问题是关于 inline_ready 管理的节点。这些(廉价或死)节点的执行与其他节点有何不同?
然后,(仍然,据我的理解)执行流程从 ExecutorState::Process 继续,它执行操作,区分同步和异步操作。 同步和异步操作在执行方面有何不同?
当操作执行时,PropagateOutputs(调用ActivateNodes)将每个后继节点的节点添加到就绪队列中,由于当前节点(前驱节点)的执行而准备就绪。
最后,NodeDone() 调用 ScheduleReady() 来处理当前在 TensorFlow 就绪队列中的节点。
反之,intra_op 线程池如何管理取决于具体的内核,对吧?内核请求的操作可能比 intra_op 线程池大小更多? 如果是,它们以哪种顺序排列? (先进先出?)
一旦将操作分配给池中的线程,那么它们的调度将留给底层操作系统还是 TensorFlow 强制执行某种调度策略?
我在这里问是因为我在文档中几乎没有找到关于这部分执行模型的任何内容,如果我遗漏了一些文档,请指出所有这些文档。
【问题讨论】:
标签: tensorflow threadpool