【发布时间】:2011-10-13 17:10:35
【问题描述】:
我有一个来自外部数据库的大约 1500 个字符串的列表,随着时间的推移,随着一组业务用户管理它们,他们开始拥有具有语义价值的重复子字符串。
我正在构建一个前端,并希望向用户展示这些子字符串的过滤下拉列表。
例如,如果我有输入字符串:
- 美国富豪
- 美国酒吧(非活动)
- 英国蝙蝠
- 英国 baz(非活动)
- AU womp
- AU 大鼠
我想回来:
- 美国
- 英国
- 澳大利亚
- 无效
我的第一个想法是有一个阈值参数和一个分隔符列表。对于上述内容,我可能会说 threshold=.3 并且分隔符是空格 (, 和 )。
然后在使用分隔符时执行 string.split 并使用数据结构,例如计算重复项 (?)...
我不想让某人在这里为我做我的工作 - 向做过这件事的人提供有关方法的建议会很棒。
【问题讨论】: