gensim

gensim - Doc2Vec:差异迭代与时代

阅读Doc2Vec documentation of gensim 时,我对一些选项感到有些困惑。比如Doc2Vec的构造函数有一个参数iter: iter (int) – 语料库的迭代次数(epochs)。 那么为什么train方法也有一个类似的参数叫做epochs? epochs (int) – 语料库的迭代次数(epochs)。 两者有什么区别?文档中还有一段: ... »

段落向量或 Doc2vec 模型大小

我正在使用 deeplearning4j java 库来构建 100 维的段落向量模型 (doc2vec)。我正​​在使用文本文件。它有大约 1700 万行,文件大小为 330 MB。 我可以训练模型并计算段落向量,得到相当好的结果。 问题是,当我尝试使用 WordVectorSerializer.writeParagraphVectors(dl4j 方法)保存模型(通过写入磁盘)时,它需要大约... »

Gensim Doc2Vec 模型只生成有限数量的向量

我正在使用 gensim Doc2Vec 模型来生成我的特征向量。这是我正在使用的代码(我已经在代码中解释了我的问题): cores = multiprocessing.cpu_count() # creating a list of tagged documents training_docs = [] # all_docs: a list of 53 strings which are ... »

在大型句子数据集中找到最相似的句子

我目前有一个包含大约一百万个句子的文本文件,每个句子都换行。 我正在尝试构建一个解决方案,我可以在该文本文件之外使用一个新句子,并让程序返回文件中存在的最相似的句子。 我找到了一些解决方案,它们返回现有数据集内相似度最高的句子对。例如this one。但这不是我想要的。我希望能够将一个新句子与文本文件中的所有句子进行比较。 另外,我不确定我应该关注语义相似度还是余弦相似度。 ... »

在 Colab 中加载保存的 Doc2Vec 模型

我已经在 colab 中使用 doc2vec 训练并保存了一个模型 model = gensim.models.Doc2Vec(vector_size=size_of_vector, window=10, min_count=5, workers=16,alpha=0.025, min_alpha=0.025, epochs=40) model.build_vocab(allXs) model.... »

如何使用 Gensim 在葡萄牙语中生成词嵌入?

我有以下问题: 在英语语言中,我的代码使用 Gensim 生成了成功的词嵌入,并且考虑到余弦距离,相似的短语彼此接近: “响应时间和错误测量”与“用户感知响应时间与错误测量的关系”之间的角度非常小,因此它们是集合中最相似的短语。 但是,当我在葡萄牙语中使用相同的短语时,它不起作用: 我的代码如下: import logging logging.basicConfig(format... »

将单词的余弦相似度与 BERT 模型进行比较

您好,我正在寻找使用 BERT 模型为单词生成相似词的方法,与我们在 gensim 中生成 most_similar 词的方法相同,我发现该方法为: from transformers import BertTokenizer, BertModel import torch tokenizer = BertTokenizer.from_pretrained('bert-base-uncased... »

doc2vec/gensim - 时代中的洗牌问题

我正在尝试使用出色的教程here 和here 开始使用word2vec 和doc2vec,并尝试使用代码示例。我只添加了一个line_clean() 方法来删​​除标点符号、停用词等。 但是我在训练迭代中调用的line_clean() 方法遇到了问题。我知道对全局方法的调用搞砸了,但我不确定如何解决这个问题。 Iteration 1 Traceback (most recent call la... »

LDA:主题模型 gensim 给出相同的主题集

为什么我在 gensim lda 模型中得到相同的主题集#字?我使用了这些参数。我检查了我的语料库中没有重复的文档。 lda_model = gensim.models.ldamodel.LdaModel(corpus=MY_CORPUS, id2word=WORD_AND_ID, ... »

是否有任何可以识别数字集群本身的无监督聚类技术?

我在 gensim、fasttext、sklearn 上检查了无监督聚类,但没有找到任何文档可以使用无监督学习对我的文本数据进行聚类,而无需提及要识别的聚类数量 例如在 sklearn KMneans 聚类中 km = KMeans(n_clusters=true_k, init='k-means++', max_iter=100) 我必须提供 n_clusters。 在我的例子中,我... »

在python中为每个句子(或短文档)分配语义标签的清晰方法

我正在寻找一种使用 python 库解决以下问题的好方法: 我有一个数据集,其中有一列包含产品描述。此列中的值可能非常混乱,并且会有很多与产品无关的其他词。我想知道哪些行是关于同一产品的,所以我需要用它的主要主题标记每个描述句子。例如,如果我有以下内容: “500 件鞋绿色运动网球进口海外塑料”,我希望标签类似于:“鞋”、“运动”。所以我正在寻找一种方法来对句子进行语义标记,而不是词性标记。假设... »

Gensim的Word2vec Skip-gram的默认估计方法?

我现在尝试使用 word2vec,通过 NCE(噪声对比估计)而不是传统的负采样方法来估计 skipgram 嵌入,就像最近的一篇论文所做的那样 (https://asistdl.onlinelibrary.wiley.com/doi/full/10.1002/asi.24421?casa_token=uCHp2XQZVV8AAAAA%3Ac7ETNVxnpqe7u9nhLzX7pIDjw5Fuq... »

如何有效调整 Gensim Doc2Vec 的超参数以在文档相似性问题中实现最大准确性?

我有大约 20k 个 60 - 150 字的文档。在这 20K 个文档中,有 400 个文档已知类似文档。这 400 个文档作为我的测试数据。 目前我正在删除这 400 个文档并使用剩余的 19600 个文档来训练 doc2vec。然后我提取训练和测试数据的向量。现在对于每个测试数据文档,我发现它与所有 19600 个训练文档的余弦距离,并选择余弦距离最小的前 5 个。如果标记的类似文件出现在前... »

如何使用 Gensim 加载预训练的 FastText 词嵌入?

我下载了词嵌入from this link。我想在Gensim 中加载它来做一些工作,但我无法加载它。我找到了很多资源,但没有一个有效。我正在使用Gensim 版本4.1。 我试过了 gensim.models.fasttext.load_facebook_model('/home/admin1/embeddings/crawl-300d-2M.vec') gensim.models.fastte... »

如何在python中使用gensim获取相关匹配词?

我试图在通过处理语料库(文本文件 A)创建 gensim 模型后找到相关词。接下来,我想传递我自己的单词列表(存储的文本文件 B),以从 gensim 模型中获取与文本文件 B 中最相似的单词。 model = gensim.models.Word2Vec(documents, window=5, min_count=1, workers=10) model.train(documents, to... »

动态主题模型的评估

我尝试评估我的动态主题模型。 该模型是使用 gensim 包装器生成的。 是否有任何可能的功能,例如与“正常”主题建模相同的困惑度或主题连贯性?... »

带有大型语料库的 Python Gensim LDAMallet CalledProcessError(在小型语料库中运行良好)

当我在大约 1600 万个文档的完整语料库上运行 Gensim LDAMallet 模型时,我收到 CalledProcessError“非零退出状态 1”错误。 有趣的是,如果我在大约 160,000 个文档的测试语料库上运行完全相同的代码,则代码运行得非常好。由于它在我的小型语料库上运行良好,我倾向于认为代码很好,但我不确定还有什么会/可能导致此错误... 我已尝试按照here 的建议编辑 ... »