如何检查熊猫数据框列中的子字符串是否存在于同一数据框中另一列的子字符串中？答案

【问题标题】：How to check if a substring in a pandas dataframe column exists in a substring of another column in the same dataframe?如何检查熊猫数据框列中的子字符串是否存在于同一数据框中另一列的子字符串中？
【发布时间】：2021-01-16 17:25:18
【问题描述】：

我有一个包含这样列的数据框：

  A                               B
0  - 5923FoxRd                    5923 Fox Rd
1 631 Newhaven Ave                Modesto
2 Saratoga Street, Suite 200      Saratoga Street, Suite 200

我想创建一个列表，其中 A 中的值与 B 中的值匹配。该列表应类似于 [- 5923FoxRd, Saratoga Street, Suite 200...]。最简单的方法是什么？

【问题讨论】：

为什么第 0 行匹配？
那是因为两列的地址是一样的

标签： python pandas string dataframe string-matching

【解决方案1】：

要让一点点走得更远，请执行以下操作：

为每一列创建一个新系列并将正则表达式模式\W+ 传递给str.replace()
使用str.lower()
创建替换列表以将drive 标准化为dr、avenue 至ave 等。

s1 = df['A'].str.replace('\W+', '').str.lower()
s2 = df['B'].str.replace('\W+', '').str.lower()
lst = [*df[s1==s2]['A']]
lst
Out[1]: ['- 5923FoxRd', 'Saratoga Street, Suite 200']

这是 s1 和 s2 的样子：

print(s1,s2)

0                 5923foxrd
1            631newhavenave
2    saratogastreetsuite200
Name: A, dtype: object

0                 5923foxrd
1                   modesto
2    saratogastreetsuite200
Name: B, dtype: object

从那里，您可能想要创建一些替换值，以便进一步规范化您的数据，例如：

to_replace = ['drive', 'avenue', 'street']
replaced = ['dr', 'ave', 'str']

to_replace = ['drive', 'avenue', 'street']
replaced = ['dr', 'ave', 'str']
s1 = df['A'].str.replace('\W+', '').str.lower().replace(to_replace, replaced, regex=True)
s2 = df['B'].str.replace('\W+', '').str.lower().replace(to_replace, replaced, regex=True)
lst = [*df[s1==s2]['A']]
lst
print(s1,s2)
0              5923foxrd
1         631newhavenave
2    saratogastrsuite200
Name: A, dtype: object

0              5923foxrd
1                modesto
2    saratogastrsuite200
Name: B, dtype: object

【讨论】：