【发布时间】:2018-08-14 14:16:40
【问题描述】:
如何使用 Python 中的自然语言处理根据过去训练的问题(包括问题的摘要和描述)为新的未见问题找到类似类型的问题
【问题讨论】:
标签: nlp
如何使用 Python 中的自然语言处理根据过去训练的问题(包括问题的摘要和描述)为新的未见问题找到类似类型的问题
【问题讨论】:
标签: nlp
如果我对您的理解正确,您有一个新问题(查询)并且您想在您的数据库中查找其他类似的问题(文档)。如果是这样,那么您需要一种方法来查找查询与现有文档之间的相似性。一旦你拥有它们,你就可以对它们进行排名并选择最相关的那些。一种允许您执行此操作的方法是Latent Semantic Indexing (LSI)。
为此,您必须构建一个文档术语矩阵。您将使用现有文档并跨文档创建术语出现矩阵。这意味着您基本上记录了一个单词在文档中出现的次数(或其他一些复杂的度量,例如-tfidf)。这可以通过bag of words 表示或TFIDF 表示来完成。
一旦你有了它,你就必须处理你的查询,使它与你的文档具有相同的形式。现在您已经有了可用形式的查询,您可以计算文档和查询之间的余弦相似度。余弦相似度最高的就是最接近的匹配。
注意:您可能想阅读的主题是信息检索,而 LSI 就是这样一种方法。您还应该研究其他方法。
【讨论】: