【问题标题】:Python multiprocessing + subprocess issuesPython多处理+子进程问题
【发布时间】:2012-03-28 03:47:42
【问题描述】:

我有一个二进制文件(比如a.out),我想用不同的配置调用它。我想在 40 核机器上并行运行这些配置。下面是我的代码的草图。

这很简单:我生成一个配置并传入worker,worker使用子进程调用带有配置的二进制文件。我还将输出重定向到文件。我们称这段代码为run.py

def worker(cmdlist, filename):
    outputfile = open(filename, 'wb')
    // here it essentially executes  a.out config > outputfile
    subprocess.call(cmdlist, stderr=outputfile, stdout=outputfile) 
    outputfile.close()

def main():
    pool = Pool(processes = 40)
    for config in all_configs
        filename, cmdlist = genCmd(config)
        res = pool.apply_async(worker, [cmdlist, filename])
        results.append(res)
    for res in results:
        res.get()
    pool.close()

但是在我启动它之后,我意识到我没有产生我想要的尽可能多的进程。我肯定提交了 40 多个工人,但在顶部,我只看到了大约 20 个 a.out。

我确实看到许多 run.py 处于“睡眠”状态(即顶部的“S”)。当我执行ps auf 时,我还看到很多run.py 处于“S+”状态,没有生成二进制文件。其中只有大约一半产生了“a.out”

我想知道,为什么会这样?我将输出重定向到安装在网络上的硬盘驱动器,这可能是一个原因,但在顶部我只看到 10%wa(据我了解,这是等待 IO 的时间的 10%)。我认为这不会导致 50% 的 CPU 空闲。另外,我至少应该生成二进制文件,而不是被困在run.py。我的二进制文件的运行时间也足够长。我真的应该看到 40 个工作长时间运行。

还有其他解释吗?我在 python 代码中做错了什么?

【问题讨论】:

  • 你在 all_configs 中有多少个配置?
  • @JoshRagem 超过 40,正如我在原始问题中所说的那样
  • 尝试为 a.out 添加显着延迟。
  • 如果让它运行到最后,输出是否显示所有任务的证据?如果您没有看到这些任务,您是否检查过它们是否不会运行?
  • 对于类似的任务,我喜欢使用 xargs -n 1 -P 40 a.out <parameters_file 之类的东西来保持 40 个 a.out 进程的运行,每个进程都有一个来自 parameters_file 的参数,该参数可能有数千个参数。如果需要根据参数构建复杂的命令行,可能需要将 a.out 替换为小脚本。

标签: python linux parallel-processing multiprocessing nfs


【解决方案1】:

我用来利用在多个内核上同时运行的多个同时进程的方法是使用 p = subprocess.Popen(...) 和 p.Poll()。在您的情况下,我认为您可以完全跳过使用 Pool 。我会给你一个更好的例子,但不幸的是我无法再访问该代码了。

【讨论】:

    猜你喜欢
    • 2019-11-01
    • 2011-09-25
    • 1970-01-01
    • 2021-07-16
    • 2019-12-12
    • 2016-08-28
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多