【发布时间】:2019-09-16 05:37:36
【问题描述】:
我正在使用 excel 文件格式设置大约 10 000 行和 55 列的数据集。我选择要显示的相关列(数字和日期)。
现在,“数字”列有许多重复的值,我想计算然后删除重复项。同时我想显示该号码的最新使用日期。
举个例子:
Column 1 = Numbers [445, 446, 447, 449, 445, 451, 445, 466, 449, ...]
Column 2 = Date [4/26/2019,3/26/2019,3/15/2019,2/26/2019,12/26/2018,12/16/2018,11/26/2018,11/6/2018,11/01/2019,... ]
445和447是重复值; 445统计3次,449统计2次在不同的日期。
然后我要创建的表是:
Column 1 = Numbers [445, 446, 447, 449, 451, 466, ...]
Column 2 = Date [4/26/2019,3/26/2019,3/15/2019,2/26/2019,12/16/2018,11/6/2018,,...]
Column 3 = Count [3,1,1,2,1,1,...]
即新表中要保留的日期是使用该数字的最晚日期。
import pandas as pd
data = pd.read_excel(r'ImportedFile.xlsx', header = 0)
df = data[['Number','Date']]
sold_total = df.pivot_table(index=['Number'], aggfunc='size')
接下来要做什么? 谢谢
【问题讨论】:
-
检查
df的形状,然后使用drop_duplicates() 和keep='last'并从旧形状中减去新形状
标签: python pandas pivot-table large-data