【发布时间】:2016-06-09 10:59:51
【问题描述】:
在此处提供的示例http://spark.apache.org/docs/latest/mllib-clustering.html#streaming-k-means 中,数据已经是 LabelledPoint 格式,但我有一个 csv 文件,其中包含单独的标签和特征列(它们都是文本)。
【问题讨论】:
标签: python apache-spark pyspark
在此处提供的示例http://spark.apache.org/docs/latest/mllib-clustering.html#streaming-k-means 中,数据已经是 LabelledPoint 格式,但我有一个 csv 文件,其中包含单独的标签和特征列(它们都是文本)。
【问题讨论】:
标签: python apache-spark pyspark
没有将 CSV 转换为 LabeledPoint 的直接方法。
这是我常用的代码:
val csv = sc.textFile("PATH/TO/CSVFILE")
val lPoint = csv.map { line =>
val values = line.split(",").map(_.toDouble)
val features = Vectors.dense(values.init)
//Assuming that the label is always in the last column.
val label = values.last
LabeledPoint(label, features)
}
【讨论】: