【发布时间】:2018-12-01 18:23:16
【问题描述】:
from sklearn.feature_extraction.text import TfidfVectorizer
item = list(df['item1']) + list(df['item2'])
tfidf = TfidfVectorizer()
tfidf_sp = tfidf.fit_transform(item)
for i in len(list(df['item1'])):
new_list =[]
new_list.append(tfidf.idf_)
df['updated_item'] = list(new_list)
我试图将 tfidf 分数添加为特征。方法对吗?
item1 的形状为 (400k),与 item2 的形状相同。 tfidf_sp 的形状为 (800k, 100k)。
【问题讨论】:
-
你不应该使用
tfidf_sp作为你的特征吗?另外,您是否已经完成了训练测试拆分? -
如果我对 item1 使用 new_list.append(tfidf_sp[0:400k]) 并且对 item2 使用相同。我的内核一直在死机。
-
为什么不直接
df['updated_item'] = tfidf.fit_transform(item)? -
for i in tqdm(list(df['item1'])): new_list =[] new_list.append(tfidf.idf_) df['updated_item'] = list(new_list) 我想同时查看进度并逐个更新
-
你能告诉我我犯了什么错误吗?
标签: python pandas scikit-learn tf-idf