【发布时间】:2014-08-09 12:34:21
【问题描述】:
我有一堆文档,其中一些文档是其他文档的副本,它们的文本混乱,一些单词被它们的同义词替换。下面提到的是一个这样的句子示例:
第 1 条(原件):我在镇上遇到了 John Snow,他在 Kingslanding 五金店买东西修理一台坏了的拖拉机。斯诺一生都在种植大豆,他的父亲和他们的父亲也是如此。我向他询问了他在农场的生活。
第 2 条(重复):我得到了约翰·斯诺,他在城里购买了金士兰的硬件来修理一台坏掉的拖拉机。雪得黄豆蚕豆毕生都被对待,如其父与父。我问他关于它在农业公司的生活。
第 3 条(重复):我和约翰·斯诺一起在金士兰的硬件仓库购买了修理一台坏了的拖拉机的城市。斯诺一生都在种植大豆,就像它的父亲和他的父母一样。我向他询问了它在农场的生活。
第 4 条(重复):与 John Snow 相比,我赶上了自己到金斯兰丁商店购买材料以修理损坏的拖拉机。斯诺一生都在种植大豆,就像他/她的父亲和他们的父亲一样。我质疑他在农场的生活。
我想做一个文档相似性,最终标记同一组中的所有这些文档。任何建议以及示例或教程将不胜感激。
【问题讨论】:
-
只是想知道,为什么这被否决了?
标签: machine-learning nlp scikit-learn stanford-nlp information-retrieval