【发布时间】:2019-01-19 20:12:35
【问题描述】:
我在做什么:使用 Pandas 分析从调查中获取的数据集。我有几列是或否答案。 我想做的和我想问的:将 dtype obj 更改为布尔值 Yes = True,No = False。 我也想知道是否有办法同时为多个列执行此操作。
谢谢。
【问题讨论】:
标签: python pandas dataframe boolean multiple-columns
我在做什么:使用 Pandas 分析从调查中获取的数据集。我有几列是或否答案。 我想做的和我想问的:将 dtype obj 更改为布尔值 Yes = True,No = False。 我也想知道是否有办法同时为多个列执行此操作。
谢谢。
【问题讨论】:
标签: python pandas dataframe boolean multiple-columns
这适用于您的分类数据,您可以将其用于多列
编码分类数据,您将使用LableEncoder 进行编码为 0,1,2...,根据您的
数据,但它会产生一个新问题,这里的问题是,因为有
是同一列中的不同数字,模型会误解
数据以某种顺序排列,0
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X_1 = LabelEncoder()
X[:,1] = labelencoder_X_1.fit_transform(X[:,1])
labelencoder_X_2 = LabelEncoder()
X[:,2] = labelencoder_X_2.fit_transform(X[:,2])
onehotencoder = OneHotEncoder(categorical_features = [1])
X = onehotencoder.fit_transform(X).toarray()
【讨论】: