【发布时间】:2021-06-19 02:10:17
【问题描述】:
我的 df 中有一个列,我需要从中删除区分大小写的重复项,以保持第一次出现。问题是我可能在某些行上有用“,”分隔的单词或在它们之间包含“-”。有没有办法清理这些数据同时保留顺序?
this is how my data looks like
3sprouts Cesto de Roupa Cisne Sprouts, 3Sprouts, Organizador
Bright-Starts Mordedor Chocalho Rattle & Teethe, bright Starts, Rosa/Roxo
Bright-Starts Mordedor Twist & Teethe, Starts, Multicor
#this is how it should look like
3sprouts Cesto de Roupa Cisne, Organizador
Bright-Starts Mordedor Chocalho Rattle & Teethe, Rosa/Roxo
Bright-Starts Mordedor Twist & Teethe, Multicor
在此先感谢
【问题讨论】:
-
为什么必须删除第二行中的'bright Starts'?(区分大小写?)并且', Rosa/Roxo' 变成',Rosa/Roxo'? (空格)
-
@SCKU 'bright Starts' 必须删除,因为句子开头有'Bright-Starts'。至于逗号和Rosa/Roxo前面的空格,没关系(我也会在描述中修改,谢谢)
-
感谢您的回复,但我认为它应该称为“不区分大小写”还是? (如果'bright Starts'匹配'Bright-Starts',第一个B不区分大小写?)
-
@SCKU 实际上是的,如果是同一个词,无论是小写、大写、正确大小写都应该删除
-
嗨!以下任何一个答案是否有效?如果是这样并且如果您愿意,您可以考虑accepting 其中之一向其他人发出问题已解决的信号。如果没有,您可以提供反馈,以便改进(或完全删除)
标签: python pandas dataframe duplicates