【问题标题】:Python: iterating over list vs over dict items efficiencyPython:迭代列表与字典项目效率
【发布时间】:2012-09-14 15:52:57
【问题描述】:

迭代some_dict.items() 是否与迭代 CPython 中相同项目的列表一样高效?

【问题讨论】:

  • 可能不会,但您可以使用timeit 做一些基准测试。

标签: python performance list dictionary


【解决方案1】:

虽然遍历some_list 的速度比some_dict.items() 快2 倍,但按索引遍历some_list 与按键遍历some_dict 几乎相同。

K = 1000000
some_dict = dict(zip(xrange(K), reversed(xrange(K))))
some_list = zip(xrange(K), xrange(K))
%timeit for t in some_list: t
10 loops, best of 3: 55.7 ms per loop
%timeit for i in xrange(len(some_list)):some_list[i]
10 loops, best of 3: 94 ms per loop
%timeit for key in some_dict: some_dict[key]
10 loops, best of 3: 115 ms per loop
%timeit for i,t in enumerate(some_list): t
10 loops, best of 3: 103 ms per loop

【讨论】:

    【解决方案2】:

    这取决于您使用的 Python 版本。在 Python 2 中,some_dict.items() 创建了一个新列表,这会占用一些额外的时间并占用额外的内存。另一方面,一旦创建列表,它就是一个列表,因此在列表创建开销完成后应该具有相同的性能特征。

    在 Python 3 中,some_dict.items() 创建一个视图对象而不是一个列表,我预计创建和迭代 items() 会比在 Python 2 中更快,因为不需要复制任何内容。但是我预计迭代一个已经创建的视图会比迭代一个已经创建的列表要慢一些,因为字典数据存储得有点稀疏,我相信python没有好的方法避免遍历字典中的每个 bin——即使是空的。

    在 Python 2 中,一些时间点证实了我的直觉:

    >>> some_dict = dict(zip(xrange(1000), reversed(xrange(1000))))
    >>> some_list = zip(xrange(1000), xrange(1000))
    >>> %timeit for t in some_list: t
    10000 loops, best of 3: 25.6 us per loop
    >>> %timeit for t in some_dict.items(): t
    10000 loops, best of 3: 57.3 us per loop
    

    遍历items 的速度大约是原来的两倍。使用iteritems 会快一点...

    >>> %timeit for t in some_dict.iteritems(): t
    10000 loops, best of 3: 41.3 us per loop
    

    但迭代列表本身与迭代任何其他列表基本相同:

    >>> some_dict_list = some_dict.items()
    >>> %timeit for t in some_dict_list: t
    10000 loops, best of 3: 26.1 us per loop
    

    Python 3 可以比 Python 2 更快地创建和迭代 items(与上面的 57.3 us 相比):

    >>> some_dict = dict(zip(range(1000), reversed(range(1000))))
    >>> %timeit for t in some_dict.items(): t      
    10000 loops, best of 3: 33.4 us per loop 
    

    但是创建视图的时间可以忽略不计;迭代实际上比列表慢。

    >>> some_list = list(zip(range(1000), reversed(range(1000))))
    >>> some_dict_view = some_dict.items()
    >>> %timeit for t in some_list: t
    10000 loops, best of 3: 18.6 us per loop
    >>> %timeit for t in some_dict_view: t
    10000 loops, best of 3: 33.3 us per loop
    

    这意味着在 Python 3 中,如果您想对字典中的项目进行多次迭代,并且性能至关重要,您可以通过将视图缓存为列表来获得 30% 的加速。

    >>> some_list = list(some_dict_view)
    >>> %timeit for t in some_list: t
    100000 loops, best of 3: 18.6 us per loop
    

    【讨论】:

    • 但是加速是否可能被不定时的行 some_list = list(some_dict_view) 否定?
    【解决方案3】:

    一个小基准告诉我迭代列表肯定更快。

    def iterlist(list_):
        i = 0
        for _ in list_:
            i += 1
        return i
    
    def iterdict(dict_):
        i = 0
        for _ in dict_.iteritems():
            i += 1
        return i
    
    def noiterdict(dict_):
        i = 0
        for _ in dict_.items():
            i += 1
        return i
    
    list_ = range(1000000)
    dict_ = dict(zip(range(1000000), range(1000000)))
    

    在 Python 2.7 (Kubuntu) 上使用 IPython 测试:

    %timeit iterlist(list_)
    10 loops, best of 3: 28.5 ms per loop
    
    %timeit iterdict(dict_)
    10 loops, best of 3: 39.7 ms per loop
    
    %timeit noiterdict(dict_)
    10 loops, best of 3: 86.1 ms per loop
    

    【讨论】:

      猜你喜欢
      • 2015-07-07
      • 1970-01-01
      • 1970-01-01
      • 2014-09-26
      • 1970-01-01
      • 2015-09-28
      • 2012-09-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多