【问题标题】:How to convert CSV data into LabelledPoint format?如何将 CSV 数据转换为 LabelledPoint 格式?
【发布时间】:2016-06-09 10:59:51
【问题描述】:

在此处提供的示例http://spark.apache.org/docs/latest/mllib-clustering.html#streaming-k-means 中,数据已经是 LabelledPoint 格式,但我有一个 csv 文件,其中包含单独的标签和特征列(它们都是文本)。

【问题讨论】:

    标签: python apache-spark pyspark


    【解决方案1】:

    没有将 CSV 转换为 LabeledPoint 的直接方法。

    这是我常用的代码:

    val csv = sc.textFile("PATH/TO/CSVFILE")
    
    val lPoint = csv.map { line =>
      val values = line.split(",").map(_.toDouble)
      val features = Vectors.dense(values.init)
      //Assuming that the label is always in the last column.
      val label = values.last
      LabeledPoint(label, features)
    }
    

    【讨论】:

    • 这是在 Scala 中,而最初的问题是要求 Python 实现
    猜你喜欢
    • 2011-11-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-10-09
    • 2020-05-09
    • 1970-01-01
    • 2019-05-08
    • 1970-01-01
    相关资源
    最近更新 更多