基于受控词汇的文档相似度度量答案

【问题标题】：Similarity measure for documents based on controlled vocabularies基于受控词汇的文档相似度度量
【发布时间】：2016-05-16 02:19:25
【问题描述】：

我有一个受控词汇表的列表，例如 term1、term2、termN.. 一个文档可能有一个或多个受控词汇表，但每个词汇表对于每个文档可能只出现一次。

假设总受控词汇是 Term1、Term2、Term3、Term4、Term5、Term6。

选项1： Jaccard 方法查看两个数据集并找到两个值都等于 1 的事件。因此，我可以将文档的受控项（项 1-6）的存在转换为二进制向量 1,0。然后，根据 Jaccard (http://docs.scipy.org/doc/scipy-0.17.0/reference/generated/scipy.spatial.distance.jaccard.html) 计算相似度

选项 2 - 使用基于 tf-idf 的余弦相似度，如 http://brandonrose.org/clustering

在这些选项（或者可能是其他相似性度量）中，哪种度量适合基于受控词汇表计算文档之间的相似性？我是数据挖掘的新手，任何建议都将不胜感激。

【问题讨论】：

【解决方案1】：

它不会让我发表评论，所以我会留下答案。我在 R 中做了类似的事情，发现这很有帮助

http://text2vec.org/similarity.html#cosine_similarity

我不知道是否有“正确答案”。我会尝试不同的方法，看看哪个产生的答案最类似于人类的判断。我认为“欧几里得距离”可能是最好的，但我不知道你是否可以使用。我

【讨论】：