【发布时间】:2015-10-21 00:01:59
【问题描述】:
我知道GloVe 通过注意经常同时出现的内容等来训练向量,但是为什么不包括逗号和句点?对于任何 NLP 来说,具有向量表示似乎是一个重要特征。我意识到像 (king - man = queen) 这样的东西对 (word - , = ?) 没有意义,但是有没有办法表示标点符号和数字?
是否有包含此类内容的预制数据集?这甚至会起作用吗?
我尝试使用自己的数据集训练 GloVe,但遇到了分隔单词之间的标点符号(带有空格)等问题。
【问题讨论】:
标签: machine-learning nlp stanford-nlp