【发布时间】:2015-06-15 13:02:45
【问题描述】:
我正在使用 scikit-learn 中的 MultinomialNB 模型训练垃圾邮件检测器。我使用 DictVectorizer 类将标记转换为字数(即特征)。我希望能够随着时间的推移使用新数据来训练模型(在这种情况下,以聊天消息的形式传入我们的应用服务器)。为此,partial_fit 函数看起来很有用。
但我似乎无法弄清楚在最初“训练”后如何放大 DictVectorizer 的大小。如果出现从未见过的新特征/单词,它们就会被忽略。我想做的是腌制当前版本的模型和 DictVectorizer 并在每次我们进行新的训练时更新它们。这可能吗?
【问题讨论】:
标签: python machine-learning scikit-learn spam-prevention naivebayes