【问题标题】:Can iterators be reset in Python?可以在 Python 中重置迭代器吗?
【发布时间】:2011-03-17 00:32:06
【问题描述】:

我可以在 Python 中重置迭代器/生成器吗?我正在使用 DictReader 并希望将其重置为文件的开头。

【问题讨论】:

  • 附带说明,我发现list() 函数将遍历其参数(可迭代)。因此在同一个可迭代对象上调用list() 两次(例如zip() 的结果),您将在第二次调用时得到一个空列表!

标签: python iterator generator


【解决方案1】:

最简单的解决方案:使用 deepcopy

from copy import deepcopy
iterator = your_iterator

# Start iteration
iterator_altered = deepcopy(iterator)
for _ in range(2):
    a = next(iter(iterator_altered))

# Your iterator is still unaltered. 

我认为这是最简单的方法。

【讨论】:

    【解决方案2】:

    在“iter()”调用期间的最后一次迭代中返回一个新创建的迭代器

    class ResetIter: 
      def __init__(self, num):
        self.num = num
        self.i = -1
    
      def __iter__(self):
        if self.i == self.num-1: # here, return the new object
          return self.__class__(self.num) 
        return self
    
      def __next__(self):
        if self.i == self.num-1:
          raise StopIteration
    
        if self.i <= self.num-1:
          self.i += 1
          return self.i
    
    
    reset_iter = ResetRange(10)
    for i in reset_iter:
      print(i, end=' ')
    print()
    
    for i in reset_iter:
      print(i, end=' ')
    print()
    
    for i in reset_iter:
      print(i, end=' ')
    

    输出:

    0 1 2 3 4 5 6 7 8 9 
    0 1 2 3 4 5 6 7 8 9 
    0 1 2 3 4 5 6 7 8 9 
    

    【讨论】:

      【解决方案3】:

      我遇到了同样的问题 - 虽然我喜欢 tee() 解决方案,但我不知道我的文件会有多大,而且关于先消费一个在另一个之前的内存警告让我无法采用那个方法。

      相反,我使用iter() 语句创建了一对迭代器,并使用第一个迭代器进行初始运行,然后切换到第二个迭代器进行最终运行。

      因此,对于 dict-reader,如果 reader 使用以下方式定义:

      d = csv.DictReader(f, delimiter=",")
      

      我可以根据这个“规范”创建一对迭代器 - 使用:

      d1, d2 = iter(d), iter(d)
      

      然后我可以针对d1 运行我的第一遍代码,因为知道第二个迭代器d2 是从相同的根规范定义的。

      我没有对此进行详尽的测试,但它似乎可以处理虚拟数据。

      【讨论】:

        【解决方案4】:

        一种可能的选择是使用itertools.cycle(),这将允许您无限期地迭代而无需像.seek(0) 这样的任何技巧。

        iterDic = itertools.cycle(csv.DictReader(open('file.csv')))
        

        【讨论】:

          【解决方案5】:

          正如上面 Alex Martelli 和 Wilduck 所倡导的那样,使用 .seek(0) 存在一个错误,即下一次调用 .next() 会以 {key1:key1, key2:key2, ...} 的形式为您提供标题行的字典。解决方法是在file.seek(0) 之后调用reader.next() 以删除标题行。

          所以你的代码看起来像这样:

          f_in = open('myfile.csv','r')
          reader = csv.DictReader(f_in)
          
          for record in reader:
              if some_condition:
                  # reset reader to first row of data on 2nd line of file
                  f_in.seek(0)
                  reader.next()
                  continue
              do_something(record)
          

          【讨论】:

            【解决方案6】:

            问题

            我以前也遇到过同样的问题。在分析了我的代码之后,我意识到尝试在循环中重置迭代器会略微增加时间复杂度,而且也会让代码有点难看。

            解决方案

            打开文件并将行保存到内存中的变量中。

            # initialize list of rows
            rows = []
            
            # open the file and temporarily name it as 'my_file'
            with open('myfile.csv', 'rb') as my_file:
            
                # set up the reader using the opened file
                myfilereader = csv.DictReader(my_file)
            
                # loop through each row of the reader
                for row in myfilereader:
                    # add the row to the list of rows
                    rows.append(row)
            

            现在您可以在范围内的任意位置循环 rows,而无需处理迭代器。

            【讨论】:

              【解决方案7】:

              对于小文件,您可以考虑使用more_itertools.seekable - 一个提供重置迭代的第三方工具。

              演示

              import csv
              
              import more_itertools as mit
              
              
              filename = "data/iris.csv"
              with open(filename, "r") as f:
                  reader = csv.DictReader(f)
                  iterable = mit.seekable(reader)                    # 1
                  print(next(iterable))                              # 2
                  print(next(iterable))
                  print(next(iterable))
              
                  print("\nReset iterable\n--------------")
                  iterable.seek(0)                                   # 3
                  print(next(iterable))
                  print(next(iterable))
                  print(next(iterable))
              

              输出

              {'Sepal width': '3.5', 'Petal width': '0.2', 'Petal length': '1.4', 'Sepal length': '5.1', 'Species': 'Iris-setosa'}
              {'Sepal width': '3', 'Petal width': '0.2', 'Petal length': '1.4', 'Sepal length': '4.9', 'Species': 'Iris-setosa'}
              {'Sepal width': '3.2', 'Petal width': '0.2', 'Petal length': '1.3', 'Sepal length': '4.7', 'Species': 'Iris-setosa'}
              
              Reset iterable
              --------------
              {'Sepal width': '3.5', 'Petal width': '0.2', 'Petal length': '1.4', 'Sepal length': '5.1', 'Species': 'Iris-setosa'}
              {'Sepal width': '3', 'Petal width': '0.2', 'Petal length': '1.4', 'Sepal length': '4.9', 'Species': 'Iris-setosa'}
              {'Sepal width': '3.2', 'Petal width': '0.2', 'Petal length': '1.3', 'Sepal length': '4.7', 'Species': 'Iris-setosa'}
              

              这里 DictReader 被包裹在 seekable 对象 (1) 和高级 (2) 中。 seek() 方法用于将迭代器重置/倒回第 0 位 (3)。

              注意:内存消耗会随着迭代而增长,因此请谨慎将此工具应用于大文件,如indicated in the docs

              【讨论】:

                【解决方案8】:

                这可能与原始问题正交,但可以将迭代器包装在一个返回迭代器的函数中。

                def get_iter():
                    return iterator
                

                要重置迭代器,只需再次调用该函数。 如果该函数不带参数时,这当然是微不足道的。

                如果函数需要一些参数,请使用 functools.partial 创建一个可以传递的闭包,而不是原来的迭代器。

                def get_iter(arg1, arg2):
                   return iterator
                from functools import partial
                iter_clos = partial(get_iter, a1, a2)
                

                这似乎避免了 tee(n 份)或 list(1 份)需要做的缓存

                【讨论】:

                  【解决方案9】:

                  list(generator()) 返回生成器的所有剩余值,如果未循环,则有效地重置它。

                  【讨论】:

                    【解决方案10】:

                    对于字典阅读器:

                    f = open(filename, "rb")
                    d = csv.DictReader(f, delimiter=",")
                    
                    f.seek(0)
                    d.__init__(f, delimiter=",")
                    

                    对于 DictWriter:

                    f = open(filename, "rb+")
                    d = csv.DictWriter(f, fieldnames=fields, delimiter=",")
                    
                    f.seek(0)
                    f.truncate(0)
                    d.__init__(f, fieldnames=fields, delimiter=",")
                    d.writeheader()
                    f.flush()
                    

                    【讨论】:

                      【解决方案11】:

                      是的,如果您使用numpy.nditer 来构建您的迭代器。

                      >>> lst = [1,2,3,4,5]
                      >>> itr = numpy.nditer([lst])
                      >>> itr.next()
                      1
                      >>> itr.next()
                      2
                      >>> itr.finished
                      False
                      >>> itr.reset()
                      >>> itr.next()
                      1
                      

                      【讨论】:

                      • nditer 可以像itertools.cycle 一样循环遍历数组吗?
                      • @LWZ:我不这么认为,但你可以try: next() 并在StopIteration 异常上执行reset()
                      • ...后跟next()
                      • 这就是我要找的东西!
                      • 注意这里“操作数”的限制是32个:stackoverflow.com/questions/51856685/…
                      【解决方案12】:

                      如果你有一个名为 'blah.csv' 的 csv 文件,看起来像

                      a,b,c,d
                      1,2,3,4
                      2,3,4,5
                      3,4,5,6
                      

                      你知道你可以打开文件进行阅读,并用

                      创建一个DictReader
                      blah = open('blah.csv', 'r')
                      reader= csv.DictReader(blah)
                      

                      然后,您将能够得到带有reader.next() 的下一行,应该输出

                      {'a':1,'b':2,'c':3,'d':4}
                      

                      再次使用会产生

                      {'a':2,'b':3,'c':4,'d':5}
                      

                      但是,此时如果你使用blah.seek(0),下次你调用reader.next()你会得到

                      {'a':1,'b':2,'c':3,'d':4}
                      

                      再次。

                      这似乎是您正在寻找的功能。我确信有一些与这种方法相关的技巧,但是我不知道。 @Brian 建议简单地创建另一个 DictReader。如果您是第一个读者,这将不起作用,因为您的新读者将在文件中的任何位置获得意外的键和值。

                      【讨论】:

                      • 这是我的理论告诉我的,很高兴看到我认为应该发生的事情确实发生了。
                      • @Wilduck:如果您创建一个新的文件句柄并将其传递给第二个 DictReader,您使用另一个 DictReader 实例描述的行为将不会发生,对吧?
                      • 如果您有两个文件处理程序,它们将独立运行,是的。
                      【解决方案13】:

                      我看到许多建议itertools.tee 的答案,但这忽略了文档中的一个重要警告:

                      此迭代工具可能需要大量 辅助存储(取决于如何 需要大量临时数据 存储)。一般来说,如果一个迭代器 使用之前的大部分或全部数据 另一个迭代器启动,它更快 使用list() 而不是tee()

                      基本上,tee 是为这样一种情况设计的:一个迭代器的两个(或多个)克隆,虽然彼此“不同步”,但太多 - - 相反,他们说的是同一个“附近”(几个项目相互落后或领先)。不适合OP的“从头重做”的问题。

                      另一方面,L = list(DictReader(...)) 非常合适,只要字典列表可以舒适地放入内存中。可以随时使用iter(L) 制作一个新的“从头开始的迭代器”(非常轻量级和低开销),并部分或全部使用而不影响新的或现有的;其他访问模式也很容易获得。

                      正如几个答案正确指出的那样,在csv 的特定情况下,您还可以.seek(0) 底层文件对象(一种相当特殊的情况)。尽管目前确实有效,但我不确定是否已记录并保证。仅对于真正巨大的 csv 文件可能值得考虑,我建议在其中使用 list,因为一般方法会占用太大的内存。

                      【讨论】:

                      【解决方案14】:

                      虽然没有迭代器重置,但 python 2.6(及更高版本)中的“itertools”模块有一些实用程序可以提供帮助。 其中之一是“tee”,它可以制作迭代器的多个副本,并缓存前面运行的结果,以便在副本上使用这些结果。我会满足你的目的:

                      >>> def printiter(n):
                      ...   for i in xrange(n):
                      ...     print "iterating value %d" % i
                      ...     yield i
                      
                      >>> from itertools import tee
                      >>> a, b = tee(printiter(5), 2)
                      >>> list(a)
                      iterating value 0
                      iterating value 1
                      iterating value 2
                      iterating value 3
                      iterating value 4
                      [0, 1, 2, 3, 4]
                      >>> list(b)
                      [0, 1, 2, 3, 4]
                      

                      【讨论】:

                        【解决方案15】:

                        没有。 Python 的迭代器协议非常简单,只提供一种方法(.next()__next__()),一般不提供重置迭代器的方法。

                        常见的模式是再次使用相同的过程创建一个新的迭代器。

                        如果你想“保存”一个迭代器以便回到它的开头,你也可以使用itertools.tee来分叉迭代器

                        【讨论】:

                        • 虽然您对 .next() 方法的分析可能是正确的,但有一种相当简单的方法可以获取操作的要求。
                        • @Wilduck:我看到了你的回答。我刚刚回答了迭代器问题,我对 csv 模块一无所知。希望这两个答案都对原始海报有用。
                        • 严格来说,迭代器协议也需要__iter__。也就是说,迭代器也必须是可迭代的。
                        【解决方案16】:

                        仅当底层类型提供了这样做的机制时(例如fp.seek(0))。

                        【讨论】:

                          猜你喜欢
                          • 2014-11-07
                          • 2015-01-01
                          • 1970-01-01
                          • 2012-06-04
                          • 1970-01-01
                          • 2020-04-23
                          • 1970-01-01
                          • 1970-01-01
                          相关资源
                          最近更新 更多