【发布时间】:2015-09-24 04:35:19
【问题描述】:
我希望利用 pandas get_dummy() 功能来编码一组(相当广泛的)分类变量。但是,数据当前是嵌套表格式。这意味着每一行代表另一个变量实例,例如
Instance, Cat_Col
1, John
1, Smith
2, Jane
3, Joe
现在我可以生成唯一变量的完整列表,我可以使用它来获取代表所有可能值的 get_dummies。但是,以这种新格式将嵌套表转换为单个实例行给我带来了一些麻烦。
非常感谢任何帮助 谢谢
编辑: 对于 Cat_col 的所有值,每个实例都应该有一个虚拟编码结果
这个想法是这样的结果是一个单一的特征向量
Instance,Col_John,Col_Smith,Col_Jane,Col_Joe
1,1,1,0,0
2,0,0,1,0
3,0,0,0,1
我相信这是正确的编码,假设我们正在做 1-hot 编码
【问题讨论】:
-
您是否需要为每个独特的“Instance”或“Cat_Col”或两者的某种组合使用一个假人?您的示例的虚拟结果是什么样的?
-
@StefanJansen 上面的问题已经更新