【问题标题】:How to filter features from CountVectorizer?如何从 CountVectorizer 中过滤特征?
【发布时间】:2016-05-30 00:33:20
【问题描述】:

我正在进行文本分析(主题建模),当我通过CountVectorizer 运行它时,我得到一堆与我的需求完全无关的数字、日期和位置。我以为我会输入preprocessing function,但scikit-learn page for preprocessing 似乎没有我在构建预处理器时需要的任何信息。

【问题讨论】:

    标签: machine-learning scikit-learn topic-modeling data-cleaning data-science


    【解决方案1】:

    您可以更改CountVectorizer中的token_pattern参数。

    令牌模式是表示什么构成“令牌”的正则表达式,仅在analyzer == 'word' 时使用。令牌模式的类型是字符串。

    默认token_pattern=r"(?u)\b\w\w+\b"。默认的正则表达式选择 2 个或更多字母数字字符的标记(标点符号被完全忽略并始终被视为标记分隔符)。您可以更改它以满足您的需求(例如忽略日期)。

    【讨论】:

      猜你喜欢
      • 2019-07-12
      • 2020-10-02
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-09-02
      • 2020-06-03
      • 2014-05-06
      • 2021-04-28
      相关资源
      最近更新 更多