【发布时间】:2019-12-16 14:36:24
【问题描述】:
我想为CountVectorizer (docs) 编写一个token_pattern=,它允许将任何字符串作为令牌传入。
默认排除很多,包括带有连字符的字符串...
我最接近的是:
vectorizer = CountVectorizer(token_patten=r"(?u)\b\w\w+\b|!|\?|\"|\'")
来自this post。
但我缺乏正则表达式的技能,所以我无法成功自定义它。
【问题讨论】:
标签: python regex scikit-learn countvectorizer