【发布时间】:2018-08-09 17:33:13
【问题描述】:
我有一个 Pandas 数据框,我想根据其他列的值添加一个新列。下面是一个说明我的用例的最小示例。
df = pd.DataFrame([[4,5,19],[1,2,0],[2,5,9],[8,2,5]], columns=['a','b','c'])
df
a b c
---------------
0 4 5 19
1 1 2 0
2 2 5 9
3 8 2 5
x = df.sample(n=2)
x
a b c
---------------
3 8 2 5
1 1 2 0
def get_new(row):
a, b, c = row
return random.choice(df[(df['a'] != a) & (df['b'] == b) & (df['c'] != c)]['c'].values)
y = x.apply(lambda row: get_new(row), axis=1)
x['new'] = y
x
a b c new
--------------------
3 8 2 5 0
1 1 2 0 5
注意:原始数据框有约 400 万行和约 6 列。示例中的行数可能在 50 到 500 之间变化。我在具有 8 GB RAM 的 64 位计算机上运行。
上面的工作,除了它很慢(对我来说大约需要 15 秒)。我也尝试使用x.itertuples() 而不是apply,在这种情况下并没有太大的改进。
apply(with axis=1) 似乎很慢,因为它没有使用矢量化操作。有什么方法可以让我更快地实现这一目标?
与使用条件布尔变量相比,过滤(在
get_new函数中)是否可以修改或更有效,就像我目前所做的那样?我可以在这里以某种方式使用 numpy 来加快速度吗?
编辑:df.sample() 也很慢,我不能使用 .iloc 或 .loc,因为我正在进一步修改示例并且不希望这影响原始数据帧。
【问题讨论】:
-
dask 呢?
-
@Pierluigi - 在查看其他库之前,我希望在 Pandas 或 Numpy 中已经有更好(和有效)的方法来执行此操作。但感谢您指出这一点。一定会看看的。
-
我创建了 tabel,作为 pandas 的简化版本。它完全基于 numpy,但抽象出处理多种数据类型的细节。并且 numpy 在像你这样的获取/设置场景中通常更快。 pypi.org/project/tabel
标签: python pandas numpy dataframe apply