【发布时间】:2021-04-01 13:42:17
【问题描述】:
我有一个包含 8 亿行和两列的数据框 names_df。名字和姓氏。我需要从合并的两列中找到唯一名称的总数。
first_name last_name
0 john doe
1 jane doe
2 doe john
3 doe jane
:
799999999 Levi Ackerman
800000000 Gojo Satoru
我可以这样做:
unique_names = np.concatenate((names_df.first_name.unique(), names_df.last_name.unique()), axis=None)
unique_names=set(unique_names.tolist())
print(len(unique_names))
但是,这会花费大量时间并且效率低下,那么从合并的两列中查找唯一值的总数有什么更有效的方法? unique_names 看起来像这样 =
>>>print(unique_names)
>>> {'john','jane','doe','levi','ackerman','Gojo','satoru'}
【问题讨论】:
标签: python python-3.x pandas dataframe