【发布时间】:2013-07-06 08:40:17
【问题描述】:
TFIDFVectorizer 占用大量内存,对 470 MB 的 100k 文档进行矢量化需要超过 6 GB,如果我们处理 2100 万个文档,它将无法容纳我们现有的 60 GB RAM。
所以我们选择了 HashingVectorizer,但仍然需要知道如何分发散列矢量化器。Fit 和部分拟合什么都不做,那么如何使用 Huge Corpus?
【问题讨论】:
标签: python numpy machine-learning scipy scikit-learn