【问题标题】:How to reduce n-gram features?如何减少 n-gram 特征?
【发布时间】:2017-06-16 23:47:33
【问题描述】:

我一直在处理文本处理中的一个问题。如果有人可以帮助我,我将不胜感激。 我有包含 12,000 条 cmets 记录的数据集。 当我对此运行 n-gram 提取器时,我获得了 170,000 个唯一的 unigram + bigram,数量之多以至于机器学习算法需要很长时间才能处理。

我应该如何减少这些提取的特征的数量?有什么特别的算法什么的吗?

【问题讨论】:

    标签: machine-learning nlp text-processing sentiment-analysis n-gram


    【解决方案1】:

    没有必要保留所有的 N-grram。您应该按频率修剪 N-gram 列表。例如,只考虑出现 40 次或更多次的一元组。修剪二元组的截止值会更低。对于三元组等等,它会更低。

    【讨论】:

      猜你喜欢
      • 2017-06-11
      • 1970-01-01
      • 2014-09-12
      • 1970-01-01
      • 2016-05-17
      • 1970-01-01
      • 2020-04-05
      • 2019-10-06
      • 1970-01-01
      相关资源
      最近更新 更多