如何将 CSV 数据转换为 LabelledPoint 格式？

【问题标题】：How to convert CSV data into LabelledPoint format?如何将 CSV 数据转换为 LabelledPoint 格式？
【发布时间】：2016-06-09 10:59:51
【问题描述】：

在此处提供的示例http://spark.apache.org/docs/latest/mllib-clustering.html#streaming-k-means 中，数据已经是 LabelledPoint 格式，但我有一个 csv 文件，其中包含单独的标签和特征列（它们都是文本）。

【问题讨论】：

标签： python apache-spark pyspark

【解决方案1】：

没有将 CSV 转换为 LabeledPoint 的直接方法。

这是我常用的代码：

val csv = sc.textFile("PATH/TO/CSVFILE")

val lPoint = csv.map { line =>
  val values = line.split(",").map(_.toDouble)
  val features = Vectors.dense(values.init)
  //Assuming that the label is always in the last column.
  val label = values.last
  LabeledPoint(label, features)
}

【讨论】：

这是在 Scala 中，而最初的问题是要求 Python 实现