python中的布尔检索模型答案

【问题标题】：Boolean retrieval model in pythonpython中的布尔检索模型
【发布时间】：2015-01-20 22:44:08
【问题描述】：

我正在尝试在 python 中使用布尔模型创建一个查询-回答系统。

我尝试使用 nltk，但它似乎没有布尔模型的功能

我有 3 个文档，我希望查看哪些文档与数值更相似。

例如 doc1 2.987、doc2 0.876 和 doc3 2.156 因此 doc1 和 doc2 相似

我做了什么：

我现在拥有的是每个文档的唯一单词列表（基本上是名词、动词、副词和形容词）

现在下一步是什么？

【问题讨论】：

【解决方案1】：

删除停用词可能很有用。您可以查找称为余弦相似度的术语。基本上它可以用于机器学习。它可用于查找文档之间的相似性。您可以在 python 中查找Scikit。如果您想使用它，这是您的选择。但是这里有一些教程解释了如何计算这个余弦相似度。

你也可以看看这个问题

希望对你有帮助:)

【讨论】：