【发布时间】:2015-12-14 08:53:30
【问题描述】:
Solu:我把参数 driver-memory 40G 放在 spark-submit 中。
问题:我的 Spark 集群由 5 个 ubuntu 服务器组成,每个服务器有 80G 内存和 24 个内核。 word2vec 大约是 10G 的新闻数据。 我以这样的独立模式提交作业:
spark-submit --name trainNewsdata --class Word2Vec.trainNewsData --master spark://master:7077 --executor-memory 70G --total-executor-cores 96 sogou.jar hdfs://master:9000 /user/bd/newsdata/* hdfs://master:9000/user/bd/word2vecModel_newsdata
当我在 spark 中训练 word2vec 模型时,我发生了: 线程“主”java.lang.OutOfMemoryError 中的异常:Java 堆空间, 我不知道如何解决它,请帮助我:)
【问题讨论】:
-
可能和那个不一样
-
您没有足够的详细信息来确定它可能有所不同。尝试链接问题中的诊断和解决方案,然后说出它的不同之处。 “它可能不同”在这一点上与“它可能是宇宙射线”一样有用。
-
好的,我可能知道了,我把参数 driver-memory 40G 放在 spark-submit 中。
标签: apache-spark word2vec