【发布时间】:2014-12-30 17:40:55
【问题描述】:
我有一个具有已知级别的分类变量(例如,hour 仅包含 0 到 23 之间的值),但目前并非所有变量都可用(例如,我们有介于0 点和 11 点,而从 12 点到 23 点的时间不包括在内),但稍后将添加其他值。如果我们天真地使用pandas.get_dummies() 将值映射到指示变量,我们最终将只有 12 个而不是 24 个。有没有办法将分类变量的值映射到 预定义的虚拟变量列表强>?
以下是预期行为的示例:
possible_values = range(24)
hours = get_dummies_on_steroids(df['hour'], prefix='hour', levels=possible_values)
【问题讨论】:
标签: python pandas dummy-data