如何减少 n-gram 特征？答案

【问题标题】：How to reduce n-gram features?如何减少 n-gram 特征？
【发布时间】：2017-06-16 23:47:33
【问题描述】：

我一直在处理文本处理中的一个问题。如果有人可以帮助我，我将不胜感激。我有包含 12,000 条 cmets 记录的数据集。当我对此运行 n-gram 提取器时，我获得了 170,000 个唯一的 unigram + bigram，数量之多以至于机器学习算法需要很长时间才能处理。

我应该如何减少这些提取的特征的数量？有什么特别的算法什么的吗？

【问题讨论】：

【解决方案1】：

没有必要保留所有的 N-grram。您应该按频率修剪 N-gram 列表。例如，只考虑出现 40 次或更多次的一元组。修剪二元组的截止值会更低。对于三元组等等，它会更低。

【讨论】：