【发布时间】:2015-08-24 19:16:59
【问题描述】:
我想根据pandas.DataFrame 中的值创建一个类的多个实例。这个我记下来了。
import itertools
import multiprocessing as mp
import pandas as pd
class Toy:
id_iter = itertools.count(1)
def __init__(self, row):
self.id = self.id_iter.next()
self.type = row['type']
if __name__ == "__main__":
table = pd.DataFrame({
'type': ['a', 'b', 'c'],
'number': [5000, 4000, 30000]
})
for index, row in table.iterrows():
[Toy(row) for _ in range(row['number'])]
多处理尝试
我已经能够通过添加以下内容(在某种程度上)并行化:
pool = mp.Pool(processes=mp.cpu_count())
m = mp.Manager()
q = m.Queue()
for index, row in table.iterrows():
pool.apply_async([Toy(row) for _ in range(row['number'])])
如果row['number'] 中的数字明显长于table 的长度,这似乎会更快。但在我的实际情况下,table 有数千行长,每个row['number'] 都比较小。
尝试将table 分解为cpu_count() 块并在表中迭代似乎更聪明。但现在我们正处于我的 Python 技能的边缘。
我已经尝试过 python 解释器对我大喊大叫的事情,例如:
pool.apply_async(
for index, row in table.iterrows():
[Toy(row) for _ in range(row['number'])]
)
还有“不能腌制”的东西
Parallel(n_jobs=4)(
delayed(Toy)([row for _ in range(row['number'])]) \
for index, row in table.iterrows()
)
编辑
这可能让我更接近一点,但仍然没有。我在单独的函数中创建类实例,
def create_toys(row):
[Toy(row) for _ in range(row['number'])]
....
Parallel(n_jobs=4, backend="threading")(
(create_toys)(row) for i, row in table.iterrows()
)
但有人告诉我“NoneType”对象不可迭代。
【问题讨论】:
-
你看到这个问题了吗? stackoverflow.com/questions/26784164/…
-
不,我没有;现在正在看。
-
我可以看到它是如何应用的,但我不能完全强迫它解决我的问题。
-
您创建了许多
Toy实例,但看起来您只是将它们丢弃。目前尚不清楚您为什么要这样做,因此很难提出更好的方法。 -
在我的真实案例中,该类调用了一个
write方法,该方法将实例写入 xml 树。这是一个完全不同的问题......
标签: python pandas python-multiprocessing