【发布时间】:2021-06-29 02:03:28
【问题描述】:
我正在使用*语料库 (17G) 和 python 语言来获得一个 n-gram 模型。我用过sklearn.feature_extraction.text.CountVectorizer,但它没有任何进度条或详细选项。有推荐的方法吗?
【问题讨论】:
-
您是否寻求建议如何使用另一个库创建sklearn的
CountVectorizer的输出(因为它需要太长时间),或者显示sklearn的CountVectorizer的进度? -
你应该展示你的代码并更好地解释你的目标是什么。 (只是不耐烦不确定
CountVectorizer在做什么,还是别的什么?) -
我想确保
CountVectorizer不会花费一周时间来完成语料库。
标签: scikit-learn nlp nltk gensim n-gram