【发布时间】:2018-12-11 15:03:13
【问题描述】:
我有一个包含重复字符串的列的数据框。我想取第一个单词并从我拥有的所有行中删除其余单词。我使用了 unique 方法,因为它返回所有唯一值,并且我只查找行中单词的第一次出现。
代码:
import pandas as pd
import numpy as np
import re
df=pd.read_csv("file name")
new_data=df['Category'].unique()
changed_data=df['Category'].str.replace('[^a-zA-Z]+', '')
这就是我所做的一切,任何帮助都会很棒。
【问题讨论】:
-
试试
df.drop_duplicates(keep='first')你能发布一个示例数据框 -
你能创建相同的样本数据并添加预期的输出吗?随意更改
df = pd.DataFrame({'Category':['some way','nice', 'be happy', 'nice', 'yop man']})