【问题标题】:Compare documents by sequence vector按序列向量比较文档
【发布时间】:2016-03-14 23:38:38
【问题描述】:

我正在尝试按序列向量对文档进行分类。基本上,我有一个词汇(超过5000字)。每个文档都被转换为一个整数向量,以便向量中的每个元素对应于词汇表中单词的位置。

例如,如果词汇是 [hello, how, are, you, today] 并且文档是“hello you”,那么我将拥有向量:[1 4]
“你好吗”将导致[2 3 4]

现在我想要评估第一个和第二个向量之间的相似性。在这里您可以看到这些向量的长度不同。此外,直接比较它们可能没有意义,因为它们代表单词的序列。这种情况不同于二元(词袋)向量,它考虑一个词在文档中的出现(如果出现则为 1,否则为 0),以及频率(字数)向量,它考虑一个词在文档中的频率具有给定词汇的文档。
你能给我一个建议吗?

【问题讨论】:

  • 可能是一些涉及containers.Mapunion 和可能unique 的配方
  • 嗯,我想这与我们使用的方法有关
  • 如果是关于方法/食谱,那么最好将问题迁移到CrossValidated
  • 你说得对,我会搬到那个网站

标签: matlab vector nlp text-classification document-classification


【解决方案1】:

Jaccard similarity 通常用于比较集合的相似性(在您的情况下为文本)。文本为n-grammed(带瓦),然后用locality sensitive hashing判断它们的Jaccard相似度。

整个领域都致力于此 - Google 是您的朋友!

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2020-03-25
    • 1970-01-01
    • 2013-03-05
    • 1970-01-01
    • 1970-01-01
    • 2012-10-04
    • 2013-07-14
    • 1970-01-01
    相关资源
    最近更新 更多