在 n 个文本文档中检测相似词答案

【问题标题】：Detecting similar words among n text documents在 n 个文本文档中检测相似词
【发布时间】：2025-12-14 08:05:02
【问题描述】：

我有 n 个文档，想查找这些文档中包含的常用词。例如，我想说 (n-3) 个文档包含单词“web”。

当然，我可以通过基本的数据结构来做到这一点，但也许有有效的算法或处理具有不同后缀的相同单词的方法。有没有用于此类目的的算法？

我不熟悉数据挖掘世界。一般来说，是否有一个术语用于寻找不同文档之间的相似性？如果有的话，我会很容易地进行我的研究。

谢谢。

【问题讨论】：

【解决方案1】：

我想你说的是stemming。如果您想使用R language，则必须使用tm package。

如果没有，我只能建议这个list of text mining tools

【讨论】：

【解决方案2】：

您可以通过为每个文档生成一个包含计数的单词列表、按字母顺序对单词列表进行排序并比较两个列表来做到这一点。这是 O(n lg n)。

另一种方法是使用您选择的数据库提供的full text search。

【讨论】：