【问题标题】:Why is the asyncio library slower than threads for this I/O-bound operation?为什么异步库比这个 I/O 绑定操作的线程慢?
【发布时间】:2014-10-02 03:31:23
【问题描述】:

我正在编写一个用于枚举网站域名的python程序。例如,'a.google.com'。

首先,我使用threading 模块来做到这一点:

import string
import time
import socket
import threading
from threading import Thread
from queue import Queue

'''
enumerate a site's domain name like this:
1-9 a-z + .google.com
1.google.com
2.google.com
.
.
1a.google.com
.
.
zz.google.com

'''

start = time.time()
def create_host(char):
    '''
    if char is '1-9a-z'
    create char like'1,2,3,...,zz'
    '''
    for i in char:
        yield i
    for i in create_host(char):
        if len(i)>1:
            return False
        for c in char:
            yield c + i


char = string.digits + string.ascii_lowercase
site = '.google.com'


def getaddr():
    while True:
        url = q.get()
        try:
            res = socket.getaddrinfo(url,80)
            print(url + ":" + res[0][4][0])
        except:
            pass
        q.task_done()

NUM=1000  #thread's num
q=Queue()

for i in range(NUM):
    t = Thread(target=getaddr)
    t.setDaemon(True)
    t.start()

for host in create_host(char):
    q.put(host+site)
q.join()

end = time.time()

print(end-start)

'''
used time:
9.448670148849487
'''

后来,我读了一本书,说在某些情况下协程比线程快。所以,我重写了代码以使用asyncio

import asyncio
import string
import time


start = time.time()
def create_host(char):
    for i in char:
        yield i
    for i in create_host(char):
        if len(i)>1:
            return False
        for c in char:
            yield c + i


char = string.digits + string.ascii_lowercase
site = '.google.com'

@asyncio.coroutine
def getaddr(loop, url):
    try:
        res = yield from loop.getaddrinfo(url,80)
        print(url + ':' + res[0][4][0])
    except:
        pass

loop = asyncio.get_event_loop()
coroutines = asyncio.wait([getaddr(loop, i+site) for i in create_host(char)])
loop.run_until_complete(coroutines)

end = time.time()

print(end-start)


'''
time 
120.42313003540039
'''

为什么getaddrinfoasyncio 版本这么慢?我是否以某种方式滥用了协程?

【问题讨论】:

  • 我在我的系统上没有看到几乎一样多的性能差异。线程版本是 20 秒,异步版本是 24。尝试从 getaddr 方法中删除打印语句。这会在性能上有很大的不同吗?打印释放 GIL,因此许多线程可以同时执行此操作,而 asyncio 不能。如果您的系统上的打印速度特别慢,则可能是速度差异的原因。

标签: python python-3.x python-asyncio


【解决方案1】:

首先,我无法重现几乎与您在我的 Linux 机器上看到的一样大的性能差异。我一直看到线程版本大约需要 20-25 秒,asyncio 版本需要 24-34 秒。

现在,为什么asyncio 变慢了?有几件事促成了这一点。首先,asyncio 版本必须按顺序打印,但线程版本不需要。打印是 I/O,所以 GIL 可以在它发生时释放。这意味着可能有两个或更多线程可以同时打印,尽管在实践中它可能不会经常发生,并且可能不会对性能产生太大影响。

其次,更重要的是,getaddrinfoasyncio 版本实际上是 just calling socket.getaddrinfo in a ThreadPoolExecutor

def getaddrinfo(self, host, port, *,
                family=0, type=0, proto=0, flags=0):
    if self._debug:
        return self.run_in_executor(None, self._getaddrinfo_debug,
                                    host, port, family, type, proto, flags)
    else:
        return self.run_in_executor(None, socket.getaddrinfo,
                                    host, port, family, type, proto, flags)

它使用默认的ThreadPoolExecutorwhich only has five threads

# Argument for default thread pool executor creation.
_MAX_WORKERS = 5

对于这个用例,这几乎没有您想要的并行度。要使其表现得更像threading 版本,您需要使用具有 1000 个线程的ThreadPoolExecutor,通过loop.set_default_executor 将其设置为默认执行程序:

loop = asyncio.get_event_loop()
loop.set_default_executor(ThreadPoolExecutor(1000))
coroutines = asyncio.wait([getaddr(loop, i+site) for i in create_host(char)])
loop.run_until_complete(coroutines)

现在,这将使行为更等同于 threading,但实际情况是 您实际上并没有使用异步 I/O - 您只是使用带有不同 API 的 threading强>。因此,您可以在这里做的最好的事情是与threading 示例相同的性能。

最后,您实际上并没有在每个示例中运行等效代码 - threading 版本使用一个工作池,它们共享一个 queue.Queue,而 asyncio 版本为每个示例生成一个协程url 列表中的项目。如果我让asyncio 版本使用asyncio.Queue 和协同程序池,除了删除打印语句并创建更大的默认执行程序之外,我得到的两个版本的性能基本相同。这是新的asyncio 代码:

import asyncio
import string
import time
from concurrent.futures import ThreadPoolExecutor

start = time.time()
def create_host(char):
    for i in char:
        yield i
    for i in create_host(char):
        if len(i)>1:
            return False
        for c in char:
            yield c + i


char = string.digits + string.ascii_lowercase
site = '.google.com'

@asyncio.coroutine
def getaddr(loop, q):
    while True:
        url = yield from q.get()
        if not url:
            break
        try:
            res = yield from loop.getaddrinfo(url,80)
        except:
            pass

@asyncio.coroutine
def load_q(loop, q):
    for host in create_host(char):
        yield from q.put(host+site)
    for _ in range(NUM):
        yield from q.put(None)

NUM = 1000
q = asyncio.Queue()

loop = asyncio.get_event_loop()
loop.set_default_executor(ThreadPoolExecutor(NUM))
coros = [asyncio.async(getaddr(loop, q)) for i in range(NUM)]
loop.run_until_complete(load_q(loop, q))
loop.run_until_complete(asyncio.wait(coros))

end = time.time()

print(end-start)

每个的输出:

dan@dandesk:~$ python3 threaded_example.py
20.409344911575317
dan@dandesk:~$ python3 asyncio_example.py
20.39924192428589

但请注意,由于网络原因,存在一些可变性。它们有时都会比这慢几秒钟。

【讨论】:

  • 非常感谢你帮我解决了这个问题。这让我明白了我的 asyncio 版本没有使用异步 I/O。然后我在郁金香问题 160(code.google.com/p/tulip/issues/detail?id=160) 上搜索了一个问题也提到了。我将在python2中使用gevent或在python3中使用aiodns来使用异步I/O。
  • 实际上,由于使用协程的影响很大,asyncio 的速度要慢得多。我没有数字,所以这只是一个评论,而不是一个帖子,但您可以使用两种样式编写的简单 http echo 服务器来验证这一点。遗憾的是,Python + 高性能异步 IO 不能一起工作。与 Golang 或 Java、Python+asyncio(仅 IO 绑定)相比,python 大约慢 9 倍。 ~32.000 请求/秒与 3.700 请求/秒。即使使用 python 的线程解决方案也更快,只要您使用的客户端不超过 200 ~ 250 个。 Asyncio 在这个数量的客户端上也会降低性能。
  • 我不确定,也许这也是实现中的一个错误。可悲的是,还没有官方基准,所以现在验证或证明我的假设是完全不同的......
  • 不确定 1000 个线程比 5 个线程提供更多的并行度。它应该取决于机器上的逻辑核心数。
  • @MarcoSulla 当您处理受 I/O 限制的线程时,更多的线程确实会给您更多的并行性。如果您正在处理受 CPU 限制的线程,那么我同意,您会受到机器上内核数量的限制。 OP 的问题是进行 DNS 查找,这是 I/O 绑定的。
猜你喜欢
  • 2012-09-14
  • 1970-01-01
  • 2015-04-17
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2018-12-01
  • 2011-11-14
  • 1970-01-01
相关资源
最近更新 更多