【问题标题】:When should I consider to use pretrain-model word2vec model weights?我什么时候应该考虑使用预训练模型 word2vec 模型权重?
【发布时间】:2021-07-09 23:21:48
【问题描述】:

假设我的语料库相当大——有数万个独特的词。我可以使用它直接构建 word2vec 模型(下面代码中的方法 #1),或者使用预先训练的模型权重初始化一个新的 word2vec 模型,并使用我自己的语料库对其进行微调(方法 #2)。方法#2值得考虑吗?如果是这样,是否有关于何时应考虑使用预训练模型的经验法则?

# Approach #1
from gensim.models import Word2Vec
model = Word2Vec(my_corpus, vector_size=300, min_count=1)

# Approach #2
model = Word2Vec(vector_size=300, min_count=1)
model.build_vocab(my_corpus)
model.intersect_word2vec_format("GoogleNews-vectors-negative300.bin", binary=True, lockf=1.0)
model.train(my_corpus, total_examples=len(my_corpus))

【问题讨论】:

    标签: python gensim word2vec word-embedding pre-trained-model


    【解决方案1】:

    此类问题的一般答案是:您应该同时尝试它们,看看哪个更适合您的目的。

    没有您的确切数据和项目目标,任何人都无法确定哪种方案更适合您的情况,并且您需要具有完全相同的评估替代选择的能力,才能进行各种非常基本、必要的调整你的工作。

    分别:

    • “微调”word2vec-vector 可能意味着很多事情,并且可能会引入许多专家级棘手的权衡决策 - 只有当您有一种强大的方法来测试不同的相互竞争。
    • 您的代码显示的特定简单调优方法 - 依赖于可能在最新的 Gensim 中不起作用的实验方法 (intersect_word2vec_format()) - 非常有限,因为它丢弃了外部向量中的所有单词t 已经在您自己的语料库中,也放弃了人们经常想要混合旧向量的主要原因之一——以覆盖更多不在他们的训练数据中的单词。 (我怀疑这种方法在许多情况下是否有用,但如上所述,以确保您想针对您的数据/目标尝试它。
    • min_count=1 与word2vec 和类似算法一起使用几乎总是一个坏主意。如果这些稀有词真的很重要,那就找到更多的训练例子,这样就可以为它们训练出好的向量。但如果没有足够的训练示例,通常最好忽略它们 - 保留它们甚至会使周围单词的向量变得更糟。

    【讨论】:

    • "因为它丢弃了外部向量中尚未出现在您自己的语料库中的所有单词,因此也丢弃了人们经常想要混合旧向量的主要原因之一——覆盖更多单词而不是在他们的训练数据中。”您能否详细说明“外部向量”和“旧向量”的含义?
    • 想象一下你有一个包含 10k 个独特单词的语料库。然后,您使用上面的代码从 300 万个单词 GoogleNews 向量中导入这 10k 个单词,如果它们存在的话。然后,你在你的语料库上训练一堆。最后,您的模型中只有这 10k 个词向量,并且它们已经过训练——被拉到新的坐标! – 仅基于您的语料库的文本。最后,您的模型中只有 10k 个向量。
    • 你只需要这 10k 字吗?如果是这样,一切都很好,但是使用GoogleNews 起始向量来表示您的某些单词可能没有太大帮助。您是否打算将这 10k 个单词与另一组中的其他 299 万以上的单词进行比较?这可能效果不佳,因为根据您进行了多少培训,它们已经脱离了与“较旧”向量的肯定对齐。有一个模糊的权衡:你对新文本的训练越多,你的词就越适合你的新文本——但它们可能与原始向量的可比性任意远。
    • 这就是为什么我不会推荐这样的方法,除非你有一个强烈的想法,为什么它会改进其他选项,例如来自一个有据可查的例子,说明它如何帮助&所有监控/调整的艰难权衡。
    猜你喜欢
    • 1970-01-01
    • 2018-01-13
    • 2016-06-29
    • 2017-08-19
    • 1970-01-01
    • 2012-05-05
    • 1970-01-01
    • 2015-08-09
    • 1970-01-01
    相关资源
    最近更新 更多