【发布时间】:2013-11-25 13:20:11
【问题描述】:
Scikit-learn CountVectorizer for bag-of-words 方法目前提供了两个子选项:(a) 使用自定义词汇表 (b) 如果自定义词汇表不可用,那么它会根据出现在语料库。
我的问题:我们能否指定一个自定义词汇表作为开始,但确保在处理语料库时看到新词时更新它。我假设这是可行的,因为矩阵是通过稀疏表示存储的。
有用性:在必须向训练数据中添加其他文档且不必从头开始的情况下,它会有所帮助。
【问题讨论】:
-
现在写的 scikit 无法做到这一点,所以我看到的唯一选择是向 issue tracker 添加增强请求。
标签: python numpy scipy scikit-learn scikits