【发布时间】:2016-07-07 22:21:20
【问题描述】:
我想知道在格式不同或其中一个拼写错误时如何匹配邮政地址。
到目前为止,我已经找到了不同的解决方案,但我认为它们已经很老了,而且效率不高。我确信存在一些更好的方法,所以如果您有参考资料供我阅读,我相信这是一个可能会引起很多人兴趣的主题。
我找到的解决方案(示例在 R 中):
-
Levenshtein 距离,它等于您必须插入、删除或更改以将一个单词转换为另一个单词的字符数。
agrep("acusait", c("accusait", "abusait"), max = 2, value = TRUE)## [1] "accusait" "abusait" -
音位比较
library(RecordLinkage)soundex(x<-c('accusait','acusait','abusait'))## [1] "A223" "A223" "A123" 使用拼写校正器(eventually a bayesian one like Peter Norvig's),但我猜对地址不是很有效。
我想使用谷歌的建议,但同样,它在个人邮政地址上效率不高。
您可以想象使用机器学习监督方法,但您需要存储用户拼写错误的请求才能这样做,这对我来说不是一个选项。
【问题讨论】:
-
您能否更准确地说明您的问题/问题?您列出的(标准)方法有什么特别错误或问题?您必须从哪些数据开始/匹配?
-
@fnl 我有邮政地址,所以这些技术并不是很有效。例如,想象一个像“62 bvd Col Prevot”这样的法语地址,例如,您希望它与“62 boulevard Colonel de Prevot”相匹配。这比仅仅匹配两个随机字符串更难。
-
Stéphanie,您所描述的是一个缩写扩展问题。对此有很多研究。除此之外,只需将您的问题分解为较小的问题。例如,您还可以将该(特定)情况视为字符串对齐问题,例如与Smith-Waterman algorithm.
-
@fnl 你对缩写扩展问题有很好的参考吗?你会推荐吗?除非我去谷歌看看。感谢您的意见
-
Stéphanie,我的主要专业是 BioNLP,虽然我现在从事商业问题,但我没有任何与工作相关的问题让我研究医学和基因组学领域之外的 AE 技术。因此,我对您特定领域的优秀 AE 论文的猜测将与您的一样好。但是,如果您熟悉生物医学领域,并希望获得一些指导,请告诉我,我可以发布一长串相关文献。
标签: text-mining spelling misspelling