【发布时间】:2016-03-14 23:38:38
【问题描述】:
我正在尝试按序列向量对文档进行分类。基本上,我有一个词汇(超过5000字)。每个文档都被转换为一个整数向量,以便向量中的每个元素对应于词汇表中单词的位置。
例如,如果词汇是 [hello, how, are, you, today] 并且文档是“hello you”,那么我将拥有向量:[1 4]。
“你好吗”将导致[2 3 4]。
现在我想要评估第一个和第二个向量之间的相似性。在这里您可以看到这些向量的长度不同。此外,直接比较它们可能没有意义,因为它们代表单词的序列。这种情况不同于二元(词袋)向量,它考虑一个词在文档中的出现(如果出现则为 1,否则为 0),以及频率(字数)向量,它考虑一个词在文档中的频率具有给定词汇的文档。
你能给我一个建议吗?
【问题讨论】:
-
可能是一些涉及containers.Map、union 和可能unique 的配方
-
嗯,我想这与我们使用的方法有关
-
如果是关于方法/食谱,那么最好将问题迁移到CrossValidated
-
你说得对,我会搬到那个网站
标签: matlab vector nlp text-classification document-classification