【发布时间】:2019-07-17 10:38:34
【问题描述】:
我有一个 pandas 数据框,它由 300 万行和 50 列组成,它们都包含整数(正数或负数)。我想创建一个名为“feature”的新列,它从 50 个现有列中获取最大的负数。
例如,如果给定行的 50 列包含值
-25,-24,-23,...,-1,1,...,23,24,25
“特征”列应返回 -1。
由于我的数据框太大,我尝试过的解决方案耗时太长。例如,我尝试使用列表推导,但因为我使用 iterrows() 太慢了(itertuples() 并没有表现得更好):
import numpy as np
import pandas as pd
from tqdm import tqdm
df = pd.read_csv('name_of_file.csv')
for idx, row in tqdm(df[list(np.arange(0,50,1))].iterrows()):
df.loc[idx, 'feature'] = max([n for n in row if n < 0])
对于如此大的数据帧,无需借助线程即可计算此特征的最快方法是什么?
【问题讨论】:
标签: python pandas dataframe iteration list-comprehension