【发布时间】:2017-07-27 08:28:05
【问题描述】:
我有一个文档集合,其中每个文档都随着时间的推移而快速增长。任务是在任何固定时间找到相似的文档。我有两种可能的方法:
向量嵌入(word2vec、GloVe 或 fasttext),对文档中的词向量进行平均,并使用余弦相似度。
词袋:tf-idf 或其变体,例如 BM25。
其中之一会产生明显更好的结果吗?有人对 tf-idf 与平均 word2vec 的文档相似度进行了定量比较吗?
是否有另一种方法可以在添加更多文本时动态优化文档的向量?
【问题讨论】:
标签: machine-learning nlp tf-idf word2vec doc2vec