基于ansj+word2vector进行相近词发现DEMO
google的开源项目word2vector,http://code.google.com/p/word2vec/。
其实这玩意算是神经网络在文本挖掘的一项成功应用。
本文章只是对自己目前搞的做个笔记,防止以后忘了,之前网上找了好久各种资料,不是这个说一半就是那个留一句的,搞的自己走起来一步一坑,尴尬……
在基于word2vector进行相近词发现之前要先对文本进行分词处理,将文本拆分成一个个词
比如我是中国人:我 是 中国人
然后将切分完词后的数据集作为word2vector数据源进行词向量训练,word2vector对词进行训练消耗的内存以及CPU比较高,而且训练时间比较长。
等训练完成后会生成对应的词以及词向量表
这样后面就可以基于某个词进行相近词的匹配以及其他算法的训练了……
说白了word2vector就是将词转换为向量便于后期的各种数学计算处理。
ansj_seg-master代码地址:
http://download.csdn.net/detail/a925907195/9891759
处理切词的类:
Word2VEC_java-master代码地址:
http://download.csdn.net/detail/a925907195/9891753
进行相近词匹配的类信息: