用句子增量训练 Sklearn 的 SGD 分类器答案

【问题标题】：incremental training SGD Classifier of Sklearn with sentences用句子增量训练 Sklearn 的 SGD 分类器
【发布时间】：2014-05-06 11:48:41
【问题描述】：

如何增量训练 Sklearn 线性模型中可用的 SGDClassifier 句子。它通常是用文档训练的。但我想用句子来训练它。我想增量训练它以用于情感分析的推文。任何在 python 中的示例解释都会有很大的帮助。

任务：推文的情绪分析怀疑：对标记的推文进行增量训练

提前致谢。

【问题讨论】：

SGDClassifier 没有文档的概念，只有样本（特征向量）的概念。如果你把你的文本分成句子，然后用HashingVectorizer对它们进行矢量化，它应该工作得很好。
是的，我今天做到了，它正在工作。实际上昨天我无法做到这一点。正在遵循 scikit-learn 中的核心实现示例并与 minibatches 混淆。感谢您的回复顺便说一句... :)
@larsmans 我们如何编写自己的特征。在散列向量中如何提取特征？？
@larsmans 以及如何微调 hashingvectorizer 参数。

【解决方案1】：

只需列出句子例如

sents=["I am x","I am Y"]

然后使用 HashingVectorizer 对其进行转换，然后使用 partial_fit 对其进行增量训练。这对我有用。

谢谢

【讨论】：