【问题标题】:document similarity with documents using synonyms使用同义词与文档的文档相似性
【发布时间】:2014-08-09 12:34:21
【问题描述】:

我有一堆文档,其中一些文档是其他文档的副本,它们的文本混乱,一些单词被它们的同义词替换。下面提到的是一个这样的句子示例:

第 1 条(原件):我在镇上遇到了 John Snow,他在 Kingslanding 五金店买东西修理一台坏了的拖拉机。斯诺一生都在种植大豆,他的父亲和他们的父亲也是如此。我向他询问了他在农场的生活。

第 2 条(重复):我得到了约翰·斯诺,他在城里购买了金士兰的硬件来修理一台坏掉的拖拉机。雪得黄豆蚕豆毕生都被对待,如其父与父。我问他关于它在农业公司的生活。

第 3 条(重复):我和约翰·斯诺一起在金士兰的硬件仓库购买了修理一台坏了的拖拉机的城市。斯诺一生都在种植大豆,就像它的父亲和他的父母一样。我向他询问了它在农场的生活。

第 4 条(重复):与 John Snow 相比,我赶上了自己到金斯兰丁商店购买材料以修理损坏的拖拉机。斯诺一生都在种植大豆,就像他/她的父亲和他们的父亲一样。我质疑他在农场的生活。

我想做一个文档相似性,最终标记同一组中的所有这些文档。任何建议以及示例或教程将不胜感激。

【问题讨论】:

  • 只是想知道,为什么这被否决了?

标签: machine-learning nlp scikit-learn stanford-nlp information-retrieval


【解决方案1】:

Descartes 是一个用于句子/文档级别相似性​​的包: http://cogcomp.cs.illinois.edu/page/software_view/Descartes

您可以比较两个文档是否足够接近。

【讨论】:

    【解决方案2】:

    这似乎是Locality Sensitive Hashing 的教科书案例。 查看this SO thread

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-11-28
      • 2014-06-09
      • 2020-09-07
      • 2020-07-30
      • 2012-03-17
      • 2015-07-02
      相关资源
      最近更新 更多