【发布时间】:2017-10-18 19:16:09
【问题描述】:
在 Spark MLlib 中使用决策树时如何处理缺失的数字特征?
我正在考虑用其他值的平均值替换缺失的特征,但是我不确定对模型质量有什么影响。 Spark MLlib 是否为这个常见问题提供任何支持?
【问题讨论】:
标签: scala apache-spark apache-spark-mllib feature-extraction
在 Spark MLlib 中使用决策树时如何处理缺失的数字特征?
我正在考虑用其他值的平均值替换缺失的特征,但是我不确定对模型质量有什么影响。 Spark MLlib 是否为这个常见问题提供任何支持?
【问题讨论】:
标签: scala apache-spark apache-spark-mllib feature-extraction
每个 DataFrame 都可以利用 DataFrameNaFunctions,它可以drop 违规记录(不是整列),fill 可以用静态“虚拟数据”填充违规数据或 replace 可以替换违规记录具有指定数据的基准。
https://spark.apache.org/docs/2.1.1/api/scala/#org.apache.spark.sql.DataFrameNaFunctions
scala> df.na
res20: org.apache.spark.sql.DataFrameNaFunctions = org.apache.spark.sql.DataFrameNaFunctions@e7e9006
scala> df.na.
drop fill replace
【讨论】: