【发布时间】:2020-04-23 17:24:03
【问题描述】:
我有一个包含多行的数据集。我想根据列的重复行数创建一个新数据集。对于第一个数据集,我想要一个没有重复行的数据集,这意味着只有具有一个值的行。对于第二个数据集,我想要两个重复的行和三个重复的行,但最多只有第二个。对于第三个数据集,我想要一个只有三个重复行的数据集。因此,作为一个例子,我编写了代码来描述这种情况。假设我有一个这样的数据框
x = {'column1': ['a','a','b','b','b','c','c','c','d'],
'column2': [22000,25000,27000,350,0,3,5,4,312]
}
df = pd.DataFrame(x, columns = ['column1', 'column2'])
print (df)
第一个数据集应该是这样的:
x = {'column1': ['d'],
'column2': [312]
}
df = pd.DataFrame(x, columns = ['column1', 'column2'])
print (df)
第二个数据集应该是这样的:
x = {'column1': ['a','a','b','b','c','c'],
'column2': [22000,25000,27000,350,3,5]
}
df = pd.DataFrame(x, columns = ['column1', 'column2'])
print (df)
第三个数据集应该如下所示:
x = {'column1': ['b','b','b','c','c','c'],
'column2': [27000,350,0,3,5,4]
}
df = pd.DataFrame(x, columns = ['column1', 'column2'])
print (df)
我怎么能不手动呢?
【问题讨论】:
标签: python pandas numpy data-manipulation data-cleaning