【问题标题】:Creating train,test data for Word2Vec model为 Word2Vec 模型创建训练、测试数据
【发布时间】:2019-10-23 19:20:26
【问题描述】:

我正在尝试创建 W2V 模型,然后生成用于我的模型的训练和测试数据。我的问题是,在使用训练数据创建 W2V 模型后如何生成测试数据。

【问题讨论】:

  • 你能分享更多细节吗?这个问题非常笼统。请分享更多信息,例如您的代码外观或到目前为止您在代码中做了什么等。

标签: python gensim word2vec


【解决方案1】:

Word2Vec 被认为是一种“无监督”算法,因此至少在其训练期间,保留任何“测试”数据以供以后评估是不常见的。

然后,通常会评估 Word2Vec 模型对其他过程的帮助程度 - 例如原始论文强调的类比求解。在 gensim 中,[evaluate_word_analogies()][1] 方法可以重复该过程。但请注意:在词类比上表现最好的词向量我不是最适合其他目的,例如分类或信息检索。最好以与您的实际基础使用相关的可重复方式评估和调整您的词向量。

(如果您使用 Word2Vec 模型的输出 - 特定于您的领域的词向量 - 作为更大系统的一部分,其中一些步骤应该使用保留的数据进行评估,则决定是否训练 Word2Vec 组件根据其他考虑,所有数据都可以采用任何一种方式。)

【讨论】:

  • 如果我们已经建立并训练了一个 word2vec 模型,我们如何测试我们的 NN 模型?假设我们有一个带有嵌入层、LSTM 和 Dense 层的 NN 模型......我们将什么作为输入传递给 NN 模型?我猜是一个 x_train 列表,但这个列表与 word2vec 模型有什么关系?我们是否将训练集和测试集从 word2vec 模型中分离出来?我们如何根据这个 word2vec 预处理我们的数据?
  • @XeniaIoannidou 您的 5 个广泛的建议问题对于一个几乎不相关的答案的评论来说太过分了......对于 SO 来说甚至可能过于宽泛——因为没有特别关注狭窄的编程任务或阻挡者/挑战者,有点像“我如何从头开始建造房子?”
  • @dojomo 不,不是。我问我是否需要 word2vec 仅用于我的模型的嵌入层,或者我是否应该在将数据集传递给我的模型之前以类似的方式预处理我的数据集???
猜你喜欢
  • 2020-06-07
  • 2021-12-15
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-06-26
  • 1970-01-01
  • 2016-10-04
  • 1970-01-01
相关资源
最近更新 更多