【发布时间】:2017-09-21 09:17:57
【问题描述】:
我有包含监督数据的 pyspark 数据框。在我的数据框中,标签属性可以出现在任何位置。我想将标签属性移动到数据框中的最后一个。例如,假设我的数据框中的属性存在 ['age','gender','defaulter','salary','occupation']。在这个'defaulter'中是标签属性。我想最后移动这个属性,以便我的数据框包含按此顺序['age','gender','salary','occupation','defaulter']的列。我想这样做是因为当我想在这些数据中应用逻辑回归等 ML 算法时,我必须将其转换为 RDD 并提取最后一个值(或第一个值)作为标签点(https://github.com/apache/spark/blob/master/examples/src/main/python/mllib/logistic_regression.py)。
【问题讨论】: