【发布时间】:2014-06-01 14:11:15
【问题描述】:
我需要处理一个损坏的数据库,其中一次存储带有重音符号的名称,一次存储非 ASCII 字符的名称。特别是我有以下两条记录:
record_1 = u'Tim Münster'
record_2 = u'Tim Mnster'
有没有可能找到这样的重复记录?
【问题讨论】:
-
这似乎微不足道。您可以简单地使用
"".join([x for x in s if ord(x)<128])删除非 ascii 字符(hacky,但有效),并使用 set 操作检查重复项。你被困在哪里了? -
@goncalopp 看起来很像一个答案!为什么不将其作为一个发布?
-
@TomFenech 我想成为他想要的东西似乎太容易了
-
谢谢,我喜欢这个 hacky 解决方案。将尝试并最终发布更新,如果它没有完全工作。
标签: python unicode duplicates