【问题标题】:How to make an array as a word embedding, similar to tf.keras.datasets.imdb.get_word_index?如何将数组作为词嵌入,类似于 tf.keras.datasets.imdb.get_word_index?
【发布时间】:2021-06-20 20:32:09
【问题描述】:

我是机器学习的新手。我从 IMDB 看到了带有电影评论的二进制分类代码。我试图对我自己的数据集使用相同的代码(其中列是“文本”:这是我的情感句子,“标签”:0 或 1)。

我想做一个词嵌入,叫word_index,类似于tf.keras.datasets.imdb.get_word_index

{'fawn': 34701, 'tsukino': 52006, 'nunnery': 52007, 'sonja': 16816, 'vani': 63951, 'woods': 1408, ...}

我尝试的是这个,但我不确定是否与 get_word_index 给出的结果相同

{k: v for k, v in enumerate(my_dataset)}

【问题讨论】:

    标签: python tensorflow keras embedding


    【解决方案1】:

    我认为您混淆了词嵌入和 word_index 这两个术语。词嵌入是一种语言中词的向量表示,有许多方法可用于获得这些表示(例如,使用预训练的词嵌入,如 Word2Vec、GloVe、BERT 等)。它可以用来代替单词的 one-hot 编码。

    Word_index 是根据词频从输入文本集合中生成的词汇表。 tf.keras.datasets.imdb.get_word_index 将 word_index 提供给 IMDB 数据集。要获取数据集的 word_index,可以使用 keras.preprocessing.text.Tokenizer.fit_on_texts(input_dataset)。这个previous post也很好地解释了这一点。

    【讨论】:

      猜你喜欢
      • 2019-11-17
      • 2018-05-18
      • 2021-11-02
      • 1970-01-01
      • 2021-03-10
      • 2019-08-01
      • 2015-07-07
      • 2017-03-13
      • 2018-02-14
      相关资源
      最近更新 更多