【发布时间】:2021-11-13 14:13:01
【问题描述】:
我有大量的字符串对,例如:
s1 = 'newyork city lights are yellow'
s2 = ' the city of new york is large'
我想写一个函数来获取 s1 和 s2(不管顺序如何)并输出:
s1_output = 'new york city lights are yellow'
s2_output = 'the city of new york is large'
这样 s2 中的 newyork 被分离到 new york 或者至少,一种在第二个字符串中仅插入一个字符即可找到与其他元素匹配的元素的方法。
匹配的token是事先不知道的,在文中不是强制的 有什么想法吗?
【问题讨论】:
-
可能类似于
s.replace('newyork', 'new york').strip()? -
这是一个例子..你事先不知道元素
-
在这种情况下,为什么我们要用
new york替换newyork?我想那部分对我来说并不是很清楚 -
假设我有两个字符串,其中一个元素(即棒球和“棒球”)之间存在明显的模糊匹配,我想找到一种方法来提取该元素并规范化这两个文本以相同的格式。
-
这能回答你的问题吗? stackoverflow.com/a/50534532/10237506
标签: python string nlp string-matching