【发布时间】:2013-03-28 02:59:01
【问题描述】:
我想编写一个接受字符串的函数或类,然后根据可以编程的任何标准返回它是真实人名的概率。目前,我预计它会严重偏向于英语或欧洲名称或其他名称的英语音译。 (例如,“bob”、“bob smith”和“smith”都应该返回 1.0,“sfgoisxdzzg”应该返回 .001 甚至 .0000001)
有谁知道这是否已经完成/正在完成? (即使是另一种语言) 我的第一个想法是我必须编写某种机器学习脚本。我的问题是我对任何机器学习理论都一无所知。
所以,我的问题的第二部分是:机器学习是解决这个问题的可行选择吗?如果是这样,我应该从哪些资源开始学习如何做到这一点?如果没有,你能指出我正确的方向吗?
【问题讨论】:
-
第一个引用问题的公认答案是您应该对此的回答。由您自己/管理员来监控数据库并对无效名称发出不良/惩罚/处罚
-
出于兴趣,您为什么要这样做?
-
您可以查看Levenshtein 以及从那里链接的其他类似功能。就像 BCS 碗选择一样,只需将它们折腾通过一堆不同的测试,看看你最终会得到什么。但是,您可能需要一些原型。
-
这个问题也可能有用:stackoverflow.com/a/6298193/505722
-
也许 facebook 已经实现了名称检查的想法。如果某个部分使用特殊字符或字典单词,则它是无效的。
标签: php text-analysis