【问题标题】:N-grams in GloVe手套中的 N-gram
【发布时间】:2018-04-05 11:30:48
【问题描述】:

我想使用 GloVe 为文档构建词嵌入。我知道如何获取单个单词(unigrams)的向量嵌入,如下所示(对于他们的示例文本文档)。

$ git clone http://github.com/stanfordnlp/glove
$ cd glove && make
$ ./demo.sh

现在,我想获得二元组的向量嵌入。例如;

  1. “New york” -> 代替“New”和“york”
  2. “机器学习”->而不是“机器”和“学习”

是否可以在 GloVe 中进行?如果是,怎么做?

【问题讨论】:

  • 使用来源
  • 请注意,在绝对不平凡且正在进行的研究主题中,从单个单词的嵌入开始获取单词组合的嵌入。

标签: nlp stanford-nlp data-mining gensim word-embedding


【解决方案1】:

我认为他们没有可用的二元向量,但您可以通过预处理语料库自己生成它们。例如,如果您的语料库中的文档如下所示:

GloVe is love

你可以这样格式化:

START_GloVe GloVe_is is_love love_END

像往常一样在这个语料库上训练一组嵌入。你也可以看看 Word2vec,就像在 this post 中一样。

【讨论】:

    猜你喜欢
    • 2018-08-12
    • 2019-04-01
    • 1970-01-01
    • 2016-08-01
    • 2016-04-07
    • 1970-01-01
    • 2013-10-06
    • 2012-04-11
    • 1970-01-01
    相关资源
    最近更新 更多