【发布时间】:2017-01-31 09:22:25
【问题描述】:
最近引起我注意的是,如果您有这样的数据框df:
A B C
0 0 Boat 45
1 1 NaN 12
2 2 Cat 6
3 3 Moose 21
4 4 Boat 43
您可以使用pd.get_dummies自动对分类数据进行编码:
df1 = pd.get_dummies(df)
产生这个:
A C B_Boat B_Cat B_Moose
0 0 45 1.0 0.0 0.0
1 1 12 0.0 0.0 0.0
2 2 6 0.0 1.0 0.0
3 3 21 0.0 0.0 1.0
4 4 43 1.0 0.0 0.0
在将其放入pd.get_dummies 之前,我通常将LabelEncoder().fit_transform 用于此类任务,但如果我可以跳过一些可取的步骤。
我只是在整个数据帧上使用pd.get_dummies 对其进行编码是否会丢失任何东西?
【问题讨论】:
标签: python pandas scikit-learn sklearn-pandas