【问题标题】:Trying Deepdict, run gensim word2vec with pyspark尝试 Deepdict,使用 pyspark 运行 gensim word2vec
【发布时间】:2016-08-03 07:07:09
【问题描述】:
from deepdist import DeepDist

from gensim.models.word2vec import Word2Vec

from pyspark import SparkConf, SparkContext

conf = (SparkConf()
     .setAppName("Work2Vec")
)

sc = SparkContext(conf=conf)
corpus = sc.textFile('AllText.txt').map(lambda s: s.split())

def gradient(model, sentences):

    syn0, syn1 = model.syn0.copy(), model.syn1.copy()   # previous weights
    model.train(sentences)
    return {'syn0': model.syn0 - syn01, 'syn1': model.syn1 - syn1}


def descent(model, update):

    model.syn0 += update['syn0']

    model.syn1 += update['syn1']


with DeepDist(Word2Vec(corpus.collect())) as dd:

    dd.train(corpus, gradient, descent)

    dd.model.save("Model")

请帮帮我,我有一个 56Gb 的文本,想建立一个 word2Vec 模型,但只使用 gensim 很慢,所以我在网上尝试 deepdist 和他们的示例代码,所以我想知道有没有人看到这种错误

我运行这个脚本时的输出:

【问题讨论】:

标签: python pyspark gensim word2vec


【解决方案1】:

请注意,您复制和粘贴的代码有错字,此拉取请求已更正:https://github.com/dirkneumann/deepdist/pull/1

【讨论】:

    猜你喜欢
    • 2016-02-03
    • 2019-05-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-10-28
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多