从未经训练的数据集中为 doc2vec 中的句子构建向量

【问题标题】：Building Vector for a sentence in doc2vec from an untrained data set从未经训练的数据集中为 doc2vec 中的句子构建向量
【发布时间】：2015-12-24 03:08:01
【问题描述】：

我从我的数据中构建了一个doc2vec 模型，现在我在运行时有一个不属于训练数据集的新句子。

如何从我的模型中为这句话构建或预测向量？

这句话中的生词应该怎么处理？

【问题讨论】：

标签： python machine-learning nlp gensim word2vec

【解决方案1】：

Gensim（开发版）似乎有一种方法来推断新句子的向量。查看https://github.com/gojomo/gensim/blob/develop/gensim/models/doc2vec.py中的model.infer_vector(NewDocument)方法

【讨论】：

它不会影响我的模型..我使用它，但有时它会为同一个句子返回不同的向量。
infer_vector() 在 gensim 的最后几个官方版本中可用。此外，doc2vec 算法涉及一些随机性。如果您使用负采样，则可以在每次调用/迭代时尝试一组不同的负示例。从 'window' 参数中，算法（从 word2vec 继承）选择一些随机较小的窗口，直到您选择的值。因此，如果不采取额外步骤，重复推理（如重复训练运行）将给出相似但不相同的结果。如果您需要完美的重现性，请参阅github.com/piskvorky/gensim/issues/447 的一些讨论

猜你喜欢

1970-01-01
1970-01-01
2020-07-17
1970-01-01
1970-01-01
1970-01-01
1970-01-01
2013-12-06
2020-12-24

相关资源

下载 2021-06-05
下载 2021-06-06
下载 2021-06-06

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode