使用同义词与文档的文档相似性答案

【问题标题】：document similarity with documents using synonyms使用同义词与文档的文档相似性
【发布时间】：2014-08-09 12:34:21
【问题描述】：

我有一堆文档，其中一些文档是其他文档的副本，它们的文本混乱，一些单词被它们的同义词替换。下面提到的是一个这样的句子示例：

第 1 条（原件）：我在镇上遇到了 John Snow，他在 Kingslanding 五金店买东西修理一台坏了的拖拉机。斯诺一生都在种植大豆，他的父亲和他们的父亲也是如此。我向他询问了他在农场的生活。

第 2 条（重复）：我得到了约翰·斯诺，他在城里购买了金士兰的硬件来修理一台坏掉的拖拉机。雪得黄豆蚕豆毕生都被对待，如其父与父。我问他关于它在农业公司的生活。

第 3 条（重复）：我和约翰·斯诺一起在金士兰的硬件仓库购买了修理一台坏了的拖拉机的城市。斯诺一生都在种植大豆，就像它的父亲和他的父母一样。我向他询问了它在农场的生活。

第 4 条（重复）：与 John Snow 相比，我赶上了自己到金斯兰丁商店购买材料以修理损坏的拖拉机。斯诺一生都在种植大豆，就像他/她的父亲和他们的父亲一样。我质疑他在农场的生活。

我想做一个文档相似性，最终标记同一组中的所有这些文档。任何建议以及示例或教程将不胜感激。

【问题讨论】：

只是想知道，为什么这被否决了？

标签： machine-learning nlp scikit-learn stanford-nlp information-retrieval

【解决方案1】：

Descartes 是一个用于句子/文档级别相似性的包： http://cogcomp.cs.illinois.edu/page/software_view/Descartes

您可以比较两个文档是否足够接近。

【讨论】：

【解决方案2】：

这似乎是Locality Sensitive Hashing 的教科书案例。查看this SO thread

【讨论】：