【发布时间】:2019-10-23 19:20:26
【问题描述】:
我正在尝试创建 W2V 模型,然后生成用于我的模型的训练和测试数据。我的问题是,在使用训练数据创建 W2V 模型后如何生成测试数据。
【问题讨论】:
-
你能分享更多细节吗?这个问题非常笼统。请分享更多信息,例如您的代码外观或到目前为止您在代码中做了什么等。
我正在尝试创建 W2V 模型,然后生成用于我的模型的训练和测试数据。我的问题是,在使用训练数据创建 W2V 模型后如何生成测试数据。
【问题讨论】:
Word2Vec 被认为是一种“无监督”算法,因此至少在其训练期间,保留任何“测试”数据以供以后评估是不常见的。
然后,通常会评估 Word2Vec 模型对其他过程的帮助程度 - 例如原始论文强调的类比求解。在 gensim 中,[evaluate_word_analogies()][1] 方法可以重复该过程。但请注意:在词类比上表现最好的词向量我不是最适合其他目的,例如分类或信息检索。最好以与您的实际基础使用相关的可重复方式评估和调整您的词向量。
(如果您使用 Word2Vec 模型的输出 - 特定于您的领域的词向量 - 作为更大系统的一部分,其中一些步骤应该使用保留的数据进行评估,则决定是否训练 Word2Vec 组件根据其他考虑,所有数据都可以采用任何一种方式。)
【讨论】: