【发布时间】:2018-10-11 08:35:13
【问题描述】:
我有一个本地数据框,每天都会附加新条目。偶尔会更新一个旧条目。赠品是一堆列将匹配,但时间戳是更新的。
为了删除旧条目并保留新的(更新的)条目,我追加了新条目,然后通过遍历行并找到旧条目来“清理”数据框:
del_rows=[]
df2 = df.copy()
for index, row in df.iterrows():
for index2, row2 in df2.iterrows():
if row["crit1"]==row2["crit1"] and row["date"] > row2["date"]:
del_rows.append(index2)
df = df.drop(df.index[del_rows])
虽然功能正常,但我很想知道执行此过程的更多“熊猫”方式。我知道apply 和 NumPy 矢量化更快;但是,我想不出可以将apply 映射到的函数,或者在给定不同数据类型的情况下使用矢量化的方法。
【问题讨论】:
-
请尝试包含一个简单的example dataset,以显示您的数据是什么样的。