【发布时间】:2014-02-28 23:31:21
【问题描述】:
我正在寻找一种算法,它可以比较两条短信(比如论坛帖子)并确定相似度的百分比。
为此目的最有效的解决方案是什么?
这个想法是使用这个算法来识别论坛上拥有两个以上昵称的用户,假装是不同的人。
我将构建一个程序,该程序将读取他们的所有帖子,并将第一个帐户的每个帖子与第二个帐户的帖子进行比较,以确定他们是真正的两个不同的人,还是只是一个用户的两个注册。
【问题讨论】:
-
我认为那里有一些很好的字符串比较算法。我个人用过this one before,它有一个非常简单的API,而且做得很快。
-
这在很大程度上取决于“相似”和“最佳”的含义。有快速的方法可以做得很好,也有慢的方法可以做得很好,并且两者之间有很多空间。您可能对Semantic similarity 感兴趣,或者您可能对Stylometry 感兴趣,它用于确定某个特定的文本位是否可能是由某个特定的人编写的。如所问,您的问题范围很广,可以得出一个好的答案。
标签: c# .net algorithm text similarity