【问题标题】:One Hot Encoding with multiple tags in the column列中具有多个标签的一种热编码
【发布时间】:2018-11-04 12:27:27
【问题描述】:

我有一个简单的数据集。

id,question,category,tags,day,quarter,group_id

1,What is your name,Introduction,Introduction,1,3,0

2,What is your name,Introduction,"Introduction, work",1,3,1

现在,如果您看到,tags 列中有多个用逗号分隔的输入。如果我尝试使用 pandas get_dummies 函数进行一次热编码,我将把它作为一列。但我想为每个标签创建列。我怎么可能做到这一点?

【问题讨论】:

    标签: python pandas dataset one-hot-encoding


    【解决方案1】:

    我相信需要str.get_dummies:

    df1 = df['tags'].str.get_dummies(', ')
    print (df1)
    
       Introduction  work
    0             1     0
    1             1     1
    

    【讨论】:

      【解决方案2】:

      你应该使用 panda 的 dataframe 方法的pivottable。 以下代码可能有用

      pivot_table(df, values='D', index=['id','question','category','day','quarter','group_id'],columns=['tags'])
      

      【讨论】:

        猜你喜欢
        • 2022-06-21
        • 2020-01-16
        • 2018-12-25
        • 1970-01-01
        • 2020-07-02
        • 1970-01-01
        • 2020-09-25
        相关资源
        最近更新 更多