我什么时候应该考虑使用预训练模型 word2vec 模型权重？答案

【问题标题】：When should I consider to use pretrain-model word2vec model weights?我什么时候应该考虑使用预训练模型 word2vec 模型权重？
【发布时间】：2021-07-09 23:21:48
【问题描述】：

假设我的语料库相当大——有数万个独特的词。我可以使用它直接构建 word2vec 模型（下面代码中的方法 #1），或者使用预先训练的模型权重初始化一个新的 word2vec 模型，并使用我自己的语料库对其进行微调（方法 #2）。方法#2值得考虑吗？如果是这样，是否有关于何时应考虑使用预训练模型的经验法则？

# Approach #1
from gensim.models import Word2Vec
model = Word2Vec(my_corpus, vector_size=300, min_count=1)

# Approach #2
model = Word2Vec(vector_size=300, min_count=1)
model.build_vocab(my_corpus)
model.intersect_word2vec_format("GoogleNews-vectors-negative300.bin", binary=True, lockf=1.0)
model.train(my_corpus, total_examples=len(my_corpus))

【问题讨论】：

标签： python gensim word2vec word-embedding pre-trained-model

【解决方案1】：

此类问题的一般答案是：您应该同时尝试它们，看看哪个更适合您的目的。

没有您的确切数据和项目目标，任何人都无法确定哪种方案更适合您的情况，并且您需要具有完全相同的评估替代选择的能力，才能进行各种非常基本、必要的调整你的工作。

分别：

“微调”word2vec-vector 可能意味着很多事情，并且可能会引入许多专家级棘手的权衡决策 - 只有当您有一种强大的方法来测试不同的相互竞争。
您的代码显示的特定简单调优方法 - 依赖于可能在最新的 Gensim 中不起作用的实验方法 (intersect_word2vec_format()) - 非常有限，因为它丢弃了外部向量中的所有单词t 已经在您自己的语料库中，也放弃了人们经常想要混合旧向量的主要原因之一——以覆盖更多不在他们的训练数据中的单词。（我怀疑这种方法在许多情况下是否有用，但如上所述，以确保您想针对您的数据/目标尝试它。
将min_count=1 与word2vec 和类似算法一起使用几乎总是一个坏主意。如果这些稀有词真的很重要，那就找到更多的训练例子，这样就可以为它们训练出好的向量。但如果没有足够的训练示例，通常最好忽略它们 - 保留它们甚至会使周围单词的向量变得更糟。

【讨论】：

"因为它丢弃了外部向量中尚未出现在您自己的语料库中的所有单词，因此也丢弃了人们经常想要混合旧向量的主要原因之一——覆盖更多单词而不是在他们的训练数据中。”您能否详细说明“外部向量”和“旧向量”的含义？
想象一下你有一个包含 10k 个独特单词的语料库。然后，您使用上面的代码从 300 万个单词 GoogleNews 向量中导入这 10k 个单词，如果它们存在的话。然后，你在你的语料库上训练一堆。最后，您的模型中只有这 10k 个词向量，并且它们已经过训练——被拉到新的坐标！ – 仅基于您的语料库的文本。最后，您的模型中只有 10k 个向量。
你只需要这 10k 字吗？如果是这样，一切都很好，但是使用GoogleNews 起始向量来表示您的某些单词可能没有太大帮助。您是否打算将这 10k 个单词与另一组中的其他 299 万以上的单词进行比较？这可能效果不佳，因为根据您进行了多少培训，它们已经脱离了与“较旧”向量的肯定对齐。有一个模糊的权衡：你对新文本的训练越多，你的词就越适合你的新文本——但它们可能与原始向量的可比性任意远。
这就是为什么我不会推荐这样的方法，除非你有一个强烈的想法，为什么它会改进其他选项，例如来自一个有据可查的例子，说明它如何帮助&所有监控/调整的艰难权衡。