【发布时间】:2020-10-02 03:38:28
【问题描述】:
我在数据框中有一列如下所示:
df = pd.DataFrame({"Receiver_email_root": ["idatta.91", "datta.indrajeet", "indiejesse.d", "idatta.91"]})
在该列上应用 CountVectorizer 并打印出特征名称后,我得到的特征名称如下所示:
Receiver_email_root feature names: ['91', 'datta', 'idatta', 'indiejesse', 'indrajeet', 'd']
但我希望 CountVectorizer 的功能名称考虑如下:
Receiver_email_root_feature_names : ['idatta.91', 'datta.indrajeet', 'indiejesse.d']
因为它们在列中而没有在分隔符处被分割,例如“。”
我该怎么做?
【问题讨论】:
标签: python pandas dataframe machine-learning countvectorizer