【问题标题】:Data pre-processing in pythonpython中的数据预处理
【发布时间】:2022-12-21 05:20:11
【问题描述】:

我有一个数据集,我正在探索数据,在我的数据的特定列中,我有 11 个不同的类别属于该特定列,但是该列的数据分布如下:

Number of data points in class 1 : 87459 ( 60.074 %)
Number of data points in class 2 : 42278 ( 29.04 %)
Number of data points in class 3 : 14712 ( 10.105 %)
Number of data points in class 4 : 569 ( 0.391 %)
Number of data points in class 5 : 425 ( 0.292 %)
Number of data points in class 6 : 57 ( 0.039 %)
Number of data points in class 7 : 34 ( 0.023 %)
Number of data points in class 8 : 24 ( 0.016 %)
Number of data points in class 9 : 11 ( 0.008 %)
Number of data points in class 10 : 10 ( 0.007 %)
Number of data points in class 11 : 7 ( 0.005 %) 

请注意,在 3 级之后到 11 级之后,该数据的百分比显着下降。

我的问题是我想对这些分类数据执行编码,我应该考虑该特定列中的所有类别,而不管数据的表示有多低,或者只考虑前 3 个类并将其余类从该列中排除。

先感谢您!

【问题讨论】:

    标签: python-3.x pandas machine-learning jupyter-notebook


    【解决方案1】:

    您可以尝试将前 3 个视为 3 个不同的类别,将其余所有类别视为一个组合类别,然后查看您的模型表现如何。

    【讨论】:

      【解决方案2】:

      您可以考虑前三个(最高)类别并忽略其余类别。因为它们非常罕见并且对您的模型没有任何贡献,同时通过“增加维度”使您的模型更加复杂。

      【讨论】:

        猜你喜欢
        • 2018-07-28
        • 2016-08-03
        • 1970-01-01
        • 2019-09-21
        • 1970-01-01
        • 2019-11-04
        • 2020-06-13
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多