【问题标题】:Iterator with memory?带内存的迭代器?
【发布时间】:2011-10-30 03:13:20
【问题描述】:

我正在开发一个使用马尔可夫链的应用程序。

此代码的示例如下:

chain = MarkovChain(order=1)
train_seq = ["","hello","this","is","a","beautiful","world"]

for i, word in enum(train_seq):
 chain.train(previous_state=train_seq[i-1],next_state=word)

我正在寻找的是迭代 train_seq,但保留最后 N 个元素。

for states in unknown(train_seq,order=1):
 # states should be a list of states, with states[-1] the newest word,
 # and states[:-1] should be the previous occurrences of the iteration.
 chain.train(*states)

希望我的问题描述足够清楚

【问题讨论】:

  • 所以您希望迭代连续的对? unknown 是什么?这是您要求我们填写的内容还是您已经拥有的功能?
  • 不一定要配对,因为我将使用任意命令构建马尔可夫链。未知是我试图弄清楚的任务功能。

标签: iterator python


【解决方案1】:

window 会一次给你n 来自iterable 的项目。

from collections import deque

def window(iterable, n=3):
    it = iter(iterable)
    d = deque(maxlen = n)
    for elem in it:
        d.append(elem)
        yield tuple(d)


print [x for x in window([1, 2, 3, 4, 5])]
# [(1,), (1, 2), (1, 2, 3), (2, 3, 4), (3, 4, 5)]

如果您在前几次想要相同数量的项目,

from collections import deque
from itertools import islice

def window(iterable, n=3):
    it = iter(iterable)
    d = deque((next(it) for Null in range(n-1)), n)
    for elem in it:
        d.append(elem)
        yield tuple(d)


print [x for x in window([1, 2, 3, 4, 5])]

会这样做的。

【讨论】:

  • 看起来很有希望!这将如何处理价值 100MB 的 train_seq 数据?
  • 完全不受iterable大小的影响,只受n大小的影响。你想一次记住多少项目?
  • 我想我会使用从 1 到 5 左右的窗口大小
  • 没问题。如果是 100 或 1000 个项目,它会很慢,因为它每次都必须创建一个元组,但对于几个项目来说它很快。请记住,当前项目计为一个项目,因此1 的窗口将是零尾随项目。
  • 它甚至可能不需要每次都将其转换为元组,具体取决于您使用它做什么。如果您要遍历窗口中的所有项目(例如,使用sum()),在我的测试中,双端队列实际上比元组或列表稍快,访问单个元素的速度与小型双端队列的速度大致相同。很难找回您将其转换为元组所花费的时间。
【解决方案2】:
seq = [1,2,3,4,5,6,7]
for w in zip(seq, seq[1:]):
  print w

您还可以执行以下操作来创建任意大小的对:

tuple_size = 2
for w in zip(*(seq[i:] for i in range(tuple_size)))
  print w

编辑:但使用迭代 zip 可能会更好:

from itertools import izip

tuple_size = 4
for w in izip(*(seq[i:] for i in range(tuple_size)))
  print w

我在我的系统上尝试了这个,seq 是 10,000,000 个整数,结果很快。

【讨论】:

  • 这需要列表的副本,如果您想要更宽的窗口,则需要更多副本。
  • 速度不是问题,你必须在内存中保存tuple_size 的副本,他说序列是 100mb。在某些情况下这可能不是问题,但如果您的虚拟服务器只有 1gb 的 RAM,您将很快承受内存压力。
【解决方案3】:

改进 yan 的答案以避免复制:

from itertools import *

def staggered_iterators(sequence, count):
  iterator = iter(sequence)
  for i in xrange(count):
    result, iterator = tee(iterator)
    yield result
    next(iterator)

tuple_size = 4
for w in izip(*(i for i in takewhile(staggered_iterators(seq, order)))):
  print w

【讨论】:

  • 我想你的意思是izip(*staggered_iterators(seq, tuple_size))。如果您查看itertools 文档中给出的tee 的等效源,这也需要一些中间存储,并使用多个deques。它也不允许 w[-1] 是当前项的严格条件,因为第三项在第一次迭代时是 w[-1]
猜你喜欢
  • 2017-11-11
  • 1970-01-01
  • 1970-01-01
  • 2011-11-15
  • 1970-01-01
  • 2013-06-02
  • 1970-01-01
  • 2016-01-16
  • 2014-10-14
相关资源
最近更新 更多