【问题标题】:How to find similarity between two list of strings using doc2vec?如何使用 doc2vec 查找两个字符串列表之间的相似性?
【发布时间】:2019-05-27 13:04:42
【问题描述】:

我有一个字符串列表,如下所示。我希望使用 Doc2Vec 查看 list1 和 list2 之间的相似性。

list1 = [['i','love','machine','learning','its','awesome'],['i', 'love', 'coding', 'in', 'python'],['i', 'love', 'building', 'chatbots']]
list2 = ['i', 'love', 'chatbots']

【问题讨论】:

  • 完全不清楚你要的是什么

标签: python python-3.x nlp doc2vec


【解决方案1】:

如果您在 gensim 库中使用 Doc2Vec 实现,则有介绍性笔记本涵盖了这一点。例如,查看文件doc2vec-lee.ipynb,它位于gensim docs/notebooks 目录中(您可以在本地运行它),或在线查看:

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-lee.ipynb

注意:

  • 您需要使用更多数据训练的模型 - 最好是数万或更多文本,每个文本至少是一个句子

  • 如果您要比较的两个文本属于您的训练集,您可以从模型中检索学习到的文档向量

  • 如果您要比较的两个文本不属于训练集,您可以使用模型推断它们的 doc-vectors,如该笔记本中所示

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-01-26
    • 2019-04-29
    • 2019-09-25
    • 2021-10-12
    • 2019-04-18
    相关资源
    最近更新 更多