训练自定义 word2vec 模型答案

【问题标题】：training custom word2vec model训练自定义 word2vec 模型
【发布时间】：2021-12-15 14:47:48
【问题描述】：

我有自己的数据集，我想在其中使用 gensim word2vec 进行训练，但我不知道该怎么做。

from google.colab import files
import io
uploaded = files.upload()
data_path = 'chatbot_dataset.txt'
with open(data_path, 'r') as f:
    lines = f.read().split('\n')

for line in lines:
    input_text = line.split('\t')[0]
    if len(input_text.split()) > MAX_SENTENCE_LENGTH:
      break
    target_text = '<START> ' + line.split('\t')[1] + " <END>"
    input_texts.append(input_text)
    target_texts.append(target_text)

model = Word2Vec(lines, min_count=1,workers=3,size=100,window=3,sg=1)
model.wv.get_vector('hello')

但我在执行此操作时遇到此错误，即使“你好”这个词已经在我的数据集中：

KeyError                                  Traceback (most recent call last)
<ipython-input-15-b41c8cb17d3b> in <module>()
    140 model.wv.vector_size
    141 #check out how 'PEM' is represented in an array of 100 numbers
--> 142 model.wv.get_vector('hello')
    143 #find words with similar meaning to 'PEN'
    144 model.wv.most_similar('to')

1 frames
/usr/local/lib/python3.7/dist-packages/gensim/models/keyedvectors.py in word_vec(self, word, use_norm)
    450             return result
    451         else:
--> 452             raise KeyError("word '%s' not in vocabulary" % word)
    453 
    454     def get_vector(self, word):

KeyError: "word 'hello' not in vocabulary"

【问题讨论】：

标签： python machine-learning nlp word2vec

【解决方案1】：

您正在向Word2Vec 提供lines，这似乎是一个纯字符串列表。

Word2Vec 期望的是一个可重复的项目序列，其中每个项目都是一个预先标记的字符串列表。相反，通过传递一系列纯字符串，当Word2Vec 将一个字符串解释为一个列表时，它会将其视为一个单字符列表——因此它学习的整个“单词”集将只是一个——人物。（您的日志中可能有关于此的警告，或者如果您正在运行至少 INFO 日志记录，进度报告显示发现的唯一单词的数量非常少。）

您可以通过检查 model.wv.index_to_key 查看模型的词汇量，例如，查看 print(model.wv.index_to_key[:10] 发现的 10 个最常用词。如果这看起来不正确，请确保您正在正确预处理/标记您将交给 Word2Vec 的语料库。

另外：min_count=1 与Word2Vec 一起使用绝不是一个好主意。只有具有多个不同用法示例的词才能获得有用的词向量，并且通常会丢弃最稀有的词，就像默认的 min_count=5 一样，确保所有幸存词的最佳质量向量。（如果有少于 5 个用法示例的单词需要向量，最好的方法是获取更多不同用法的训练数据。）

【讨论】：