【发布时间】:2019-05-13 20:46:51
【问题描述】:
我有两个不同的文本,我想使用 tfidf 矢量化进行比较。 我正在做的是:
- 标记每个文档
- 使用 TFIDFVectorizer.fit_transform(tokens_list) 进行矢量化
现在我在第 2 步之后得到的向量具有不同的形状。 但根据概念,我们应该对两个向量具有相同的形状。只有这样才能比较向量。
我做错了什么?请帮忙。
提前致谢。
【问题讨论】:
-
如果我弄错了,有人可以纠正我,但通常我认为你不应该在两个不同的词袋上做
fit_transform。您应该在一组上做一个fit_transform,然后使用已经安装的矢量化器在第二组上做一个transform,以便与第一组进行比较 -
有道理...我会再次尝试在第二个文本上使用转换而不是 fit_transform。确实,我应该在第二个文档上使用第一个文档的词汇来检查相似性。不知道为什么我以前没有想到这一点。谢谢
标签: python nltk cosine-similarity tfidfvectorizer