【发布时间】:2016-11-26 09:45:17
【问题描述】:
我正在尝试在 python 中执行降维。我有文字以及他们的频率计数。我想通过对其进行降维来减少文本的数量。例如,如果我有一个包含文本及其频率的文件,我该如何减少 python 中的项目数量?
【问题讨论】:
-
确定数据中的差异来源,删除其余部分。在词袋模型中,在保留方差的同时删除冗余数据的一种方法是删除全局常用词(“a”、“the”、“is”等)。只保留特定于文本的字词。
标签: python data-mining pca