【发布时间】:2020-07-31 17:46:26
【问题描述】:
我试图更好地理解 CountVectorizer 类的工作原理。
我对预处理器、标记器和分析器参数之间的差异感到很困惑。
在文档中声明所有这些参数都可以调用,我猜你可以生成自己的函数来自定义各种过程。
也就是说,我不确定为什么它们是互斥的(即,当且仅当分析器为无时,预处理器才可调用,类似地,当且仅当分析器='word'时,标记器才可调用 - 来自文档) .
如果有人能阐明参数的不同用法以及相关步骤应该完成什么,我将不胜感激。
提前致谢,如果问题对 stackoverflow 来说不够具体,请告诉我!
【问题讨论】:
标签: scikit-learn