【发布时间】:2021-01-10 10:35:10
【问题描述】:
我有大量的句子,问题是我无法一次将它们全部加载到内存中,特别是当我对句子进行标记并将它们拆分为单词列表时,我的 RAM 很快就满了。
但我找不到任何关于如何批量训练 gensim word2vec 的示例,这意味着在每个时期我想我必须以某种方式从磁盘加载批量数据,将它们标记化并将其提供给模型然后卸载它并加载下一批。
当我没有足够的内存来加载所有句子(甚至没有 20%)时,我该如何克服这个问题并训练一个 word2vec 模型。
我的句子基本上都在一个文本文件中,每一行代表一个句子。
【问题讨论】: