按序列向量比较文档答案

【问题标题】：Compare documents by sequence vector按序列向量比较文档
【发布时间】：2016-03-14 23:38:38
【问题描述】：

我正在尝试按序列向量对文档进行分类。基本上，我有一个词汇（超过5000字）。每个文档都被转换为一个整数向量，以便向量中的每个元素对应于词汇表中单词的位置。

例如，如果词汇是 [hello, how, are, you, today] 并且文档是“hello you”，那么我将拥有向量：[1 4]。
“你好吗”将导致[2 3 4]。

现在我想要评估第一个和第二个向量之间的相似性。在这里您可以看到这些向量的长度不同。此外，直接比较它们可能没有意义，因为它们代表单词的序列。这种情况不同于二元（词袋）向量，它考虑一个词在文档中的出现（如果出现则为 1，否则为 0），以及频率（字数）向量，它考虑一个词在文档中的频率具有给定词汇的文档。
你能给我一个建议吗？

【问题讨论】：

可能是一些涉及containers.Map、union 和可能unique 的配方
嗯，我想这与我们使用的方法有关
如果是关于方法/食谱，那么最好将问题迁移到CrossValidated
你说得对，我会搬到那个网站

标签： matlab vector nlp text-classification document-classification

【解决方案1】：

Jaccard similarity 通常用于比较集合的相似性（在您的情况下为文本）。文本为n-grammed（带瓦），然后用locality sensitive hashing判断它们的Jaccard相似度。

整个领域都致力于此 - Google 是您的朋友！

【讨论】：