如何切片生成器对象或迭代器？答案

【问题标题】：How to slice a generator object or iterator?如何切片生成器对象或迭代器？
【发布时间】：2016-04-16 09:33:14
【问题描述】：

我想循环遍历迭代器的“切片”。我不确定这是否可行，因为我知道不可能对迭代器进行切片。我想做的是：

def f():
    for i in range(100):
        yield(i)
x = f()

for i in x[95:]:
    print(i)

这当然失败了：

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-37-15f166d16ed2> in <module>()
  4 x = f()
  5 
----> 6 for i in x[95:]:
  7     print(i)

TypeError: 'generator' object is not subscriptable

有没有一种 Python 的方式来循环遍历生成器的“切片”？

基本上我真正关心的生成器读取一个非常大的文件并逐行对其执行一些操作。我想测试文件的切片以确保事情按预期执行，但是让它在整个文件上运行非常耗时。

编辑：
如前所述，我需要在文件上进行此操作。我希望有一种方法可以通过生成器明确指定这一点：

import skbio

f = 'seqs.fna'
seqs = skbio.io.read(f, format='fasta')

seqs 是一个生成器对象

for seq in itertools.islice(seqs, 30516420, 30516432):
    #do a bunch of stuff here
    pass

上面的代码做了我需要的，但是仍然很慢，因为生成器仍然循环遍历所有的行。我希望只循环指定的切片

【问题讨论】：

我不明白您的问题...如果您的生成器将文件作为输入，然后对其进行测试，将其传递给该文件的切片，您为什么要“切片生成器” ?
你看过itertools.islice吗？
请注意，islice-ing 生成器不会阻止它在您关心和处理它们之前通过线路。最好为它提供文件的islice。（您仍然需要阅读文件以查找换行符，但您将跳过生成器对不需要的行执行的任何处理。）

标签： python for-loop generator slice

【解决方案1】：

一般来说，answer is itertools.islice，但您应该注意，islice 实际上不会也不能跳过值。它只是在开始 yield-ing 值之前抓取并丢弃 start 值。因此，当您需要跳过很多值和/或被跳过的值获取/计算成本很高时，通常最好避免使用islice。如果您能找到一种不首先生成值的方法，请这样做。在您的（显然是人为的）示例中，您只需调整 range 对象的起始索引。

在尝试在文件对象上运行的特定情况下，提取大量行（尤其是从慢速介质读取）可能并不理想。假设您不需要特定的行，您可以使用一个技巧来避免实际读取文件的大块，同时仍然测试到文件的一些距离，是 seek 到猜测的偏移量，读出到末尾该行（丢弃您可能寻求到中间的部分行），然后 islice 关闭您想要从该点开始的多行。例如：

import itertools

with open('myhugefile') as f:
    # Assuming roughly 80 characters per line, this seeks to somewhere roughly
    # around the 100,000th line without reading in the data preceding it
    f.seek(80 * 100000)
    next(f)  # Throw away the partial line you probably landed in the middle of
    for line in itertools.islice(f, 100):  # Process 100 lines
        # Do stuff with each line

对于文件的特定情况，您可能还想查看mmap，它可以以类似的方式使用（如果您正在处理数据块而不是文本行，则它非常有用，可能会随机跳转随你去）。

更新：根据您更新的问题，您需要查看您的 API 文档和/或数据格式，以准确了解如何正确跳过。它看起来像skbio offers some features for skipping using seq_num, but that's still going to read if not process most of the file。如果数据以相同的序列长度写出，我会查看Alignment 上的文档；对齐的数据可以在不处理前面的数据的情况下加载，例如by using Alignment.subalignment to create new Alignments that skip the rest of the data for you。

【讨论】：

在一个非结构化、无索引的文件中，有没有办法在不翻遍整个文件的情况下获得（确切的）第 100,000 行？
@NickT：不。像linecache 这样的模块会让你假装你有随机访问权限，但它仍然是“撕开”整个事情；如果不通读以找到它们，就没有有意义的方法可以找到换行符的位置。 mmap-ing 一个文件并重复使用mmap.find 或mmap.rfind 可以找到相对于文件开头或结尾的行，而不在内存中存储任何行，但它仍在读取文件。
@NickT: 我以前posted an answer for using mmap to read the last X lines of a large file without slurping the whole thing;那是你能得到的最接近的。您需要从文件的一端或另一端读取数据，除非这些行是固定长度的，否则您无法在不阅读的情况下跳到给定行以找出该特定行的位置。

【解决方案2】：

您不能使用普通的slice operations 对生成器对象或迭代器进行切片。相反，您需要使用 @jonrsharpe 在他的 comment 中提到的 itertools.islice。

import itertools    

for i in itertools.islice(x, 95)
    print(i)

还要注意islice 返回一个迭代器并在迭代器或生成器上使用数据。因此，如果您需要返回执行某些操作或使用鲜为人知的itertools.tee 创建生成器的副本，则需要将数据转换为列表或创建新的生成器对象。 p>

from itertools import tee


first, second = tee(f())

【讨论】：

注意：itertools.tee 存储由最高级的tee-ed 副本生成的每个输出的副本，并且在最不高级的迭代器生成它之前不能丢弃任何这些值。因此，使用tee，其中一个tee-ed 迭代器在您阅读第二个之前用尽，通常只需list-ifying 原始生成器，然后对其进行多次迭代即可更好地处理。
@ShadowRanger 你的意思是迭代原始副本也被消耗了吗？你能详细说明一下吗？ list-ifying 原始生成器意味着将所有数据加载到内存中。
我从来没有说过迭代原件消耗副本；不知道你的意思是什么？基本上，如果您执行x, y = tee(some_generator_making_numbers)，然后执行sum(x)，则some_generator_making_numbers 的所有值都存储在内部tee 共享数据中，直到您也将它们从y 中排出；如果您不大致并行地迭代tee 的所有输出，那么您不太可能仅使用somelist = list(some_generator_making_numbers) 来减少list-ifying 的内存开销，然后根据需要多次迭代somelist。
重点是，tee 实际上并没有复制生成器。它基于单个共享缓存创建新的生成器，其中第一个请求项目 X 的生成器导致共享缓存从原始生成器中提取值，最后一个请求项目 X 的生成器从缓存中释放该值。但是，如果第一个 tee 生成器在第二个生成器提取单个值之前耗尽，那么共享缓存包含来自原始生成器的每个值（所需的内存大致相当于将所有值存储在 list 中）。
这实际上是tee documentation的一部分：“这个itertool可能需要大量的辅助存储（取决于需要存储多少临时数据）。一般来说，如果一个迭代器使用大部分或全部在另一个迭代器开始之前的数据，使用 list() 而不是 tee() 更快。"

【解决方案3】：

islice 是 Python 的方式

from itertools import islice    

g = (i for i in range(100))

for num in islice(g, 95, None):
    print num

【讨论】：

【解决方案4】：

让我们先澄清一些事情。根据您在表达式左侧指定的参数数量，您想从生成器中提取第一个值的配偶。从这一刻开始，我们遇到了一个问题，因为在 Python 中有两种解压方法。

让我们使用以下示例讨论这些替代方案。假设您有以下列表 l = [1, 2, 3]

1) 第一种选择是不使用“开始”表达式

a, b, c = l # a=1, b=2, c=3

如果表达式左侧的参数数量（在本例中为 3 个参数）等于列表中的元素数量，则此方法非常有用。但是，如果你尝试这样的事情

a, b = l # ValueError: too many values to unpack (expected 2)

这是因为列表包含的参数比表达式左侧指定的参数多

2) 第二种选择是使用“start”表达式；这样就解决了之前的错误

a, b, c* = l #  a=1, b=2, c=[3]

“开始”参数就像一个缓冲区列表。缓冲区可以有三个可能的值：

    a, b, *c = [1, 2] # a=1, b=2, c=[]
    a, b, *c = [1, 2, 3] # a=1, b=2, c=[3]
    a, b, *c = [1, 2, 3, 4, 5] # a=1, b=2, c=[3,4,5]

请注意，列表必须至少包含 2 个值（在上面的示例中）。否则会报错

现在，跳到你的问题。如果你尝试这样的事情：

a, b, c = generator

这只有在生成器只包含三个值时才有效（生成器值的数量必须与左参数的数量相同）。否则，将引发错误。

如果你尝试这样的事情：

a, b, *c = generator

如果生成器中的值个数小于2；将引发错误，因为变量“a”、“b”必须具有值
如果生成器中的值数为 3；然后 a=, b=(val_2>, c=[]
如果生成器中的值的数量大于 3；然后 a=, b=(val_2>, c=[, ... ] 在这种情况下，如果生成器是无限的；程序将被阻止尝试使用生成器

我为你建议的是以下解决方案

# Create a dummy generator for this example
def my_generator():
i = 0
while i < 2:
    yield i
    i += 1

# Our Generator Unpacker
class GeneratorUnpacker:
    def __init__(self, generator):
        self.generator = generator

    def __iter__(self):
        return self

    def __next__(self):
        try:
            return next(self.generator)
        except StopIteration:
            return None # When the generator ends; we will return None as value

if __name__ == '__main__':
    dummy_generator = my_generator()
    g =  GeneratorUnpacker(dummy_generator )
    a, b, c = next(g), next(g), next(g)

【讨论】：