【问题标题】:How to query from Glove pre-trained word embeddings?如何从 Glove 预训练的词嵌入中查询?
【发布时间】:2017-05-20 10:42:11
【问题描述】:

在 Python 中查询预训练的 Glove(或类似的)词嵌入的推荐方法是什么?

我能想到的一个选择是:

  1. Glove Page下载整个预训练的词嵌入向量
  2. 将它们放入 Python 字典中
  3. 逐个嵌入单词。 (即从 Python 字典中检索值)

上述方法的问题是需要先将整个数据复制到磁盘,然后需要将 2 Gigs 的数据加载到 RAM,两者都可以太贵了

这是标准方式吗? 就像从在线引擎查询一样? 还是其他方式?

【问题讨论】:

  • 您的内容指向 zip 存档而不是实际页面。
  • @dmitryro 已修复。谢谢
  • 我们也有手套矢量的标签吗?我认为跟踪(至少对我而言)会很有用。
  • 目前没有可用于 Glove 的标签。有足够声望的人可以做标签。
  • 如何(一次性)将 glove 数据转换为 pandas 数据帧并将其保存为 HDF?使用 HDF 格式,您可以只加载数据的特定键:pandas.pydata.org/pandas-docs/stable/generated/…

标签: python word2vec


【解决方案1】:

您可以做的一件事是仅抓取出现在您的测试/训练语料库中的单词并单独保存。这样您就不必在预训练的向量中加载所有其他单词(300 万)。

【讨论】:

  • 怎么抢?通过在磁盘上执行线性搜索?
  • 预训练的向量被保存为字典(hashset),所以抓取起来非常快。
  • 我认为这个问题是问你如何在代码方面做到这一点,而不仅仅是解释。
  • @Toussain Louverture 否。在上面的手套页面中,zip 文件仅包含 csv 文件。你的意思是它们被保存为字典?
猜你喜欢
  • 2016-06-11
  • 1970-01-01
  • 2019-12-30
  • 1970-01-01
  • 2023-03-21
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多