【发布时间】:2018-01-11 12:47:07
【问题描述】:
我正在尝试将谷歌的预训练向量“GoogleNews-vectors-negative300.bin.gz”Google-word2vec 加载到 spark 中。
我将 bin 文件转换为 txt 并创建了一个较小的块用于测试,我称之为“vectors.txt”。我尝试按以下方式加载它:
val sparkSession = SparkSession.builder
.master("local[*]")
.appName("Word2VecExample")
.getOrCreate()
val model2= Word2VecModel.load(sparkSession.sparkContext, "src/main/resources/vectors.txt")
val synonyms = model2.findSynonyms("the", 5)
for((synonym, cosineSimilarity) <- synonyms) {
println(s"$synonym $cosineSimilarity")
}
令我惊讶的是,我遇到了以下错误:
Exception in thread "main" org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/home/elievex/Repository/ARCANA/src/main/resources/vectors.txt/metadata
我不确定“vectors.txt”之后的“元数据”是从哪里来的。 我正在为 Eclipse 使用 Spark、Scala 和 Scala IDE。
我做错了什么?有没有其他方法可以在 spark 中加载预训练模型?希望有任何提示。
【问题讨论】:
标签: scala apache-spark word2vec