【问题标题】:reduce number of items in a frequency vector python减少频率向量python中的项目数
【发布时间】:2016-11-26 09:45:17
【问题描述】:

我正在尝试在 python 中执行降维。我有文字以及他们的频率计数。我想通过对其进行降维来减少文本的数量。例如,如果我有一个包含文本及其频率的文件,我该如何减少 python 中的项目数量?

【问题讨论】:

  • 确定数据中的差异来源,删除其余部分。在词袋模型中,在保留方差的同时删除冗余数据的一种方法是删除全局常用词(“a”、“the”、“is”等)。只保留特定于文本的字词。

标签: python data-mining pca


【解决方案1】:

降维的方法有很多。

如果不正式说明您的要求,很难推荐(另外,请先查看有关此问题的文献)。

在很多情况下,您可以简单地随意删除维度。例如。 minhash 以这种方式查找附近重复的文档。

【讨论】:

    猜你喜欢
    • 2010-10-27
    • 1970-01-01
    • 1970-01-01
    • 2018-04-12
    • 2022-01-11
    • 1970-01-01
    • 1970-01-01
    • 2018-02-19
    • 2022-10-24
    相关资源
    最近更新 更多