【发布时间】:2019-04-14 14:26:40
【问题描述】:
我目前正在做一个包含婴儿姓名数据的项目。我正在研究从 1950 年代开始的每个十年中最受欢迎的男性和女性婴儿名字。我正在尝试创建一个函数,该函数将打印出我输入的数据集的最高名称。
到目前为止,我已经成功地为每个十年创建了两个数据集(一个男性和另一个女性)
这是我为该函数提供的代码,但我似乎无法弄清楚如何使它工作......
def getTopName(data):
(data
.drop(columns =['sex', 'prop'])
.pivot(index = 'name', columns = 'year', values = 'n')
.sum(axis=1) = data['decade']
.sort_values(by = 'decade', ascending = False))
print data[0:1]
关于如何完成此任务的任何建议?
它目前是长格式。我可以创建一个中间函数,将其转换为宽格式并构建一个新列,可以将每年(1960、1961、... 1969)的总数相加吗?
【问题讨论】:
-
数据集的结构?有样本数据吗?
-
函数的所有行都必须缩进。
-
数据为5列(姓名、性别、年份、数字、比例)..超过一百万行,所以我想将其转换为宽数据框