【发布时间】:2018-11-26 12:49:57
【问题描述】:
我有一个包含 700k 行的 CSV 文件,我需要做的是创建一个额外的 CSV,它已经获取了我需要的数据并将其排序。
例如,我的原始 csv 文件中的数据看起来有点像这样。
Name Code Date Area
Peter 01 01/01/2016 Wales
Peter 02 01/02/2017 England
Peter 34 25/02/2018 Wales
Paul 65 01/12/2015 Scotland
Paul 12 02/12/2015 Scotland
Simon 12 23/08/2016 England
Simon 12 28/09/2016 Wales
Simon 12 27/10/2018 England
我需要做的是为一个人创建一个唯一的行,但根据代码的制作时间列出代码(最旧的日期在前)。我应该指出,我在 Excel 中对数据集进行了排序,以便以正确的顺序(最旧的在前)列出日期,看看是否有帮助。
所以我需要的输出应该是这样的:
Name Codes
Peter 01,02,34
Paul 65,12
Simon 12,12,12
代码按最早日期排列。
我对该区域不感兴趣,因为它与最终答案无关。
我已成功将名称和代码放入相关列,但由于某种原因,代码未按最早日期列出。
我已尝试搜索此内容,但似乎无法正确措辞以获得相关结果。
有人知道为什么序列不能正确导出吗?
我使用的代码是:
df2 = df2.groupby ('Name')['Code'].apply(', '.join).reset_index()
df2
export_csv = df2.to_csv(r'Filelocation.csv', index = None, header = True)
谢谢
【问题讨论】:
标签: python pandas pandas-groupby