【发布时间】:2018-03-21 11:01:16
【问题描述】:
我只是想将我的 PySpark 数据帧中的所有 String 类型变量转换为分类变量,以便我可以在数据帧上运行决策树。由于资源限制,我不能使用 pandas,只能使用 PySpark 库。我已将VectorIndexer 确定为一种可能的解决方案,但是,我不明白如何转换documentation 所说的所有String 类型的列是可能的。
有人可以帮助我了解如何执行此操作的语法吗?我追求的是这样的:
featureIndexer = VectorIndexer(inputCol=<list of input columns>, outputCol=<list of output columns>, maxCategories=10).fit(df)
或让VectorIndexer 自行确定哪些需要引导,文档似乎表明它可以做到。
featureIndexer = VectorIndexer(df, maxCategories=10).fit(df)
提前致谢。
【问题讨论】:
标签: python apache-spark pyspark apache-spark-mllib pyspark-sql