【发布时间】:2015-07-08 14:11:51
【问题描述】:
我有一个非常大的数据集存储在 Hadoop(YARN 集群)上,我想在其上训练支持向量机分类器。 从数据集中的每个数据点中提取特征并以LibSVM 格式保存。 Spark MLLib 可以使用MLUtils.LoadLibSVMFile(JavaSparkContext 上下文,字符串目录)读取这些文件。 每个文件都有一行以换行符结尾的双打。线表示特征的值。
我想将所有这些文件连接成一个 JavaRDD。 我可以将 .textFile("../*") 与某种 .join 或 .union 语句一起使用吗? 我不明白如何做到这一点......
你能帮忙吗? 我想更多的人想知道如何有效地做到这一点。
【问题讨论】:
标签: java apache-spark svm hadoop-yarn apache-spark-mllib