【发布时间】:2017-06-16 23:47:33
【问题描述】:
我一直在处理文本处理中的一个问题。如果有人可以帮助我,我将不胜感激。 我有包含 12,000 条 cmets 记录的数据集。 当我对此运行 n-gram 提取器时,我获得了 170,000 个唯一的 unigram + bigram,数量之多以至于机器学习算法需要很长时间才能处理。
我应该如何减少这些提取的特征的数量?有什么特别的算法什么的吗?
【问题讨论】:
标签: machine-learning nlp text-processing sentiment-analysis n-gram