【发布时间】:2014-10-28 17:21:54
【问题描述】:
我正在尝试从制表符分隔的文本文件中逐行读取一个大的双精度矩阵。这是在 Scala/Apache Spark 中。
如果我执行以下操作:
val obs = sc.textFile("path_to_text_file")
我得到 obs:org.apache.spark.rdd.RDD[String]
但是,要求是具有向量的 RDD。你愿意帮忙吗?
感谢和问候,
【问题讨论】:
-
关于你拥有什么和你想要什么的更多信息可能会有所帮助。 (分隔符,是逐行还是逐列;双精度向量的 RDD,但是逐行还是逐列?)
-
非常感谢,Gábor。我相应地编辑了问题......
-
更具体地说,我收到以下错误:
-
[错误] .../test/src/main/scala/mult_gaus.scala:22:类型不匹配; [错误] 发现:org.apache.spark.rdd.RDD[String] [错误] 需要:org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector]
标签: scala apache-spark