【发布时间】:2017-09-01 03:52:45
【问题描述】:
我想使用 word2vec 和 PySpark 来处理一些数据。
我之前在 Python 中使用 Google 训练的模型 GoogleNews-vectors-negative300.bin 和 gensim。
有没有办法可以用 mllib.word2vec 加载这个 bin 文件?
或者将数据作为字典从 Python {word : [vector]}(或 .csv 文件)导出,然后将其加载到 PySpark 中是否有意义?
谢谢
【问题讨论】:
-
我已经加载了 .parquet 格式的 pyspark 模型。
标签: python load pyspark gensim word2vec