【问题标题】:OOV (Out Of Vocabulary) word embeddings for Fasttex in low RAM environments低 RAM 环境中 Fasttex 的 OOV(词汇表外)词嵌入
【发布时间】:2019-01-11 12:31:11
【问题描述】:

有没有办法使用 fasttext 获取 OOV(Out Of Vocabulary)单词的向量,但不将所有嵌入加载到内存中?

我通常在低 RAM 环境(.vec(通常是纯文本)文件并将其存储到数据库中(稍后您可以访问该数据库以请求词向量)。但是,要获得带有 fasttext 的 OOV 向量,您需要使用 .bin 文件并将其加载到内存中。有没有办法避免加载整个.bin 文件?

【问题讨论】:

  • 一个难题。这里可能有一些提示。 quora.com/…
  • 感谢您的链接!从那里的描述来看,我认为仍然可以这样做,但是我想必须进行自定义实现(因为我找不到这样做的)。此外,性能肯定会受到影响:(
  • 不一定。词向量是通过添加 ngram 的向量来创建的。所以你在 vec 文件中看到的是最终的向量,而不是单个的 ngram。如果你也有 ngram,那么你很幸运。
  • 那么问题应该是:有没有办法从.bin文件中提取所有的ngram?

标签: machine-learning nlp word-embedding fasttext


【解决方案1】:

对我有用的是设置一个巨大的交换分区以允许模型加载,然后我将向量的大小从 300 减少到 100 以使模型完全适合内存。

【讨论】:

    猜你喜欢
    • 2018-06-09
    • 2018-01-11
    • 1970-01-01
    • 1970-01-01
    • 2018-08-21
    • 2021-04-18
    • 2019-09-01
    • 2021-11-09
    • 2021-11-30
    相关资源
    最近更新 更多