【发布时间】:2014-04-03 05:07:33
【问题描述】:
假设我有两个都是基于文本的功能;例如,假设我正在尝试预测体育比赛,我有:
1) 体育评论摘录(正文) 2)摘自网络粉丝预测(也是正文)。
如果我要在功能 1 上使用文本矢量化器(例如 HashingVectorizer),并带有 fit_transform(),那么在功能 2 上再次使用它(fit_transform())会不会不好,或者我应该为那?我只是想知道在具有相同矢量化器的多个特征上重用 fit_transform() 是否可能会产生不好的副作用。
【问题讨论】:
-
HashingVectorizer是完全无状态的,因此它始终可以安全地重复使用。但我不明白你为什么不直接fit_transform一次性完成整个训练集。
标签: scikit-learn