【发布时间】:2020-08-05 05:57:18
【问题描述】:
在 Sklearn 中,我如何在 Sklearn 中的 LabelEncoding 之后执行 OneHotEncoding。
到目前为止,我所做的是像这样映射了我的数据集的所有字符串特征。
# Categorical boolean mask
categorical_feature_mask = X.dtypes==object
# filter categorical columns using mask and turn it into a list
categorical_cols = X.columns[categorical_feature_mask].tolist()
之后我将它应用于数据集列,索引如下:
X[categorical_cols] = X[categorical_cols].apply(lambda col: le.fit_transform(col))
我的结果不是超级好,所以我想做的是,我想用ÒneHotEncoding来看看性能有没有提高。
这是我的代码:
ohe = OneHotEncoder(categorical_features = categorical_cols)
X[categorical_cols] = ohe.fit_transform(df).toarray()
我尝试了不同的方法,但我在这里尝试完成的是使用 OneHotEncoding 技术来覆盖功能。
【问题讨论】:
标签: python machine-learning scikit-learn one-hot-encoding feature-engineering