【发布时间】:2018-10-29 02:26:45
【问题描述】:
我正在参加泰坦尼克号 kaggle 比赛,为了处理分类数据,我将数据分成两组:一组用于数值变量,另一组用于分类变量。 在使用 sklearn 对带有分类变量的集合进行热编码后,我尝试重新组合这两个数据集,但由于分类集是 ndarray 而另一个是我使用的数据框:
np.hstack((X_train_num, X_train_cat))
效果很好,但我不再知道变量的名称。
是否有另一种方法可以在不使用 pd.get_dummies() 的情况下保持变量名称?
谢谢
【问题讨论】:
标签: python pandas scikit-learn data-science one-hot-encoding