【发布时间】:2018-09-23 11:42:31
【问题描述】:
如果有任何学习方法(或更可能的学习过程)的好例子,我也阅读了论文并在谷歌上搜索
对于word2vec,假设有语料句
我每天早上带着妈妈包好的饭盒去学校
然后在窗口大小为 2 的情况下,它会尝试通过使用周围的单词来获取 'school' 的向量
['去','去','与','午餐']
现在FastText说是用subword来获取向量,所以肯定是用ngram subword,比如n=3,
['sc', 'sch', 'cho', 'hoo', 'ool', 'school']
到这里,我明白了。 但尚不清楚其他词是否被用于“学校”的学习。我只能猜测其他周围的词也像 word2vec 一样被使用,因为论文提到了
=> 术语 Wc 和 Wt 都用在函数中
其中 Wc 是上下文词,Wt 是序列 t 处的词。
但是,FastText 是如何学习单词向量的,目前还不清楚。
.
.
请清楚说明 FastText 学习过程是如何进行的?
.
.
更准确地说,我想知道 FastText 是否也遵循与 Word2Vec 相同的过程,同时它还学习了 n-gram 特征子词。还是只使用 n-gram 特征子词?
它如何在初始时对子词进行矢量化?等等
【问题讨论】:
标签: nlp vectorization word2vec word-embedding fasttext