【发布时间】:2021-02-14 14:00:31
【问题描述】:
我正在尝试编写一些有效的代码来删除 pandas 数据框的行,其中特定列中的值是同一列中其他值(至少一个值的子集)的子字符串。
例如,考虑以下输入数据框中的列B:
| | A | B |
|---|----|------------|
| 0 | 22 | ab |
| 1 | 33 | abc |
| 2 | 44 | abcd |
| 3 | 55 | a |
| 4 | 66 | john |
| 5 | 77 | john Doe |
| 6 | 88 | jo |
| 7 | 99 | john hi Doe|
输出数据框:
| | A | B |
|---|----|------------|
| 2 | 44 | abcd |
| 5 | 77 | john Doe |
| 7 | 99 | john hi Doe|
行 0、1 和 3 已被删除,因为它们在列 B(ab、abc 和 a)的所有值都是该列中其他值的子字符串(即 abcd )。第 4 行和第 6 行也是如此。
【问题讨论】:
标签: python pandas dataframe substring