【问题标题】:Parallel Python: 4 threads have same speed as 2 threads并行 Python:4 个线程与 2 个线程具有相同的速度
【发布时间】:2015-03-02 15:17:13
【问题描述】:

我使用Parallel Python 在多个内核上执行计算繁重的代码。 我有一个i7-4600M 处理器,它有 2 个内核和 4 个线程。

有趣的是,如果我使用 2 个或 4 个线程,计算时间几乎相同。我写了一个小示例代码,演示了这种现象。

import itertools
import pp
import time

def cc(data, n):
    count = 0
    for A in data:
        for B in itertools.product((-1,0,1), repeat=n):
            inner_product = sum(a*b for a,b in zip(A,B))
            if inner_product == 0:
                count += 1
    return count

n = 9

for thread_count in (1, 2, 3, 4):
    print("Thread_count = {}".format(thread_count))
    ppservers = ()
    job_server = pp.Server(thread_count, ppservers=ppservers)

    datas = [[] for _ in range(thread_count)]
    for index, A in enumerate(itertools.product((0,1), repeat=n)):
        datas[index%thread_count].append(A)
    print("Data sizes: {}".format(map(len, datas)))

    time_start = time.time()
    jobs = [job_server.submit(cc,(data,n), (), ("itertools",)) for data in datas]
    result = sum(job() for job in jobs)
    time_end = time.time()
    print("Time = {}".format(time_end - time_start))
    print("Result = {}".format(result))
    print

这是一个运行程序和cpu使用率的短视频:https://www.screenr.com/1ULN当我使用2个线程时,cpu有50%的使用率,如果我使用4个线程,它会使用100%。但它只是稍微快一点。使用 2 个线程,我获得了 1.8 倍的加速,使用 3 个线程获得了 1.9 倍的加速,使用 4 个线程获得了 2 倍的加速。

如果代码太快,请使用n = 10n = 11。但要小心,复杂度是6^n。所以n = 10 的时间是n = 9 的 6 倍。

【问题讨论】:

  • 每个线程的工作强度如何?可能只是对于较小的计算,差异可以忽略不计
  • 每个作业都在几分钟内以 25% 的 cpu 使用率工作。
  • 您知道即使您的内核有多个线程,Python 的Global Interpreter Lock 也会阻止同时执行多个线程?因此,无论您使用 2 个线程(每个内核 1 个线程)还是 4 个线程(每个内核 2 个线程),您的两个处理器都会串行执行程序的每个进程。
  • @RickTeachey 阅读问题链接到的introduction page for Parallel Python

标签: python multithreading python-2.7 parallel-python


【解决方案1】:

2 个内核和 4 个线程意味着每个内核上有两个超线程,它们不会线性扩展,因为它们共享资源并且可以相互妨碍,具体取决于工作负载。并行 Python 在幕后使用进程和 IPC。每个内核都在调度两个不同的进程,因此您可能会看到缓存抖动(内核的缓存在超线程之间共享)。

【讨论】:

  • 是的,我知道它不会线性扩展。但我没想到会这么糟糕。当使用两倍的 CPU 使用率时,执行速度提高 5% 是非常糟糕的。
【解决方案2】:

我知道这个线程有点旧,但我认为添加一些数据点可能会有所帮助。我在分配了 4 个虚拟 CPU(2.93Ghz X5670 xeon)和 8GB 内存的 vm 上运行它。 VM 托管在 Hyper-V 上,并在 Ubuntu 14.10 64 位上运行 Python 2.7.8,但我的 PP 版本是 fork PPFT。

第一次运行时线程数为 4。第二次我将 for 循环修改为 8。

输出:http://pastebin.com/ByF7nbfm

再增加 4 个核心,内存加倍,for 循环相同,循环 8 个:

输出:http://pastebin.com/irKGWMRy

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2018-03-10
    • 1970-01-01
    • 2017-02-02
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-04-21
    • 1970-01-01
    相关资源
    最近更新 更多