【发布时间】:2021-06-22 08:09:25
【问题描述】:
我偶然发现了以下问题:
我正在做一个数据科学的初学者项目。我得到了测试和训练数据拆分,现在我正在分析每个特征,然后将其添加到离散连续变量的数据框或连续变量的数据框。 这样做我遇到了一个带有大异常值的特征。如果我想删除它们,我已经添加到我的子数据框的其他功能将具有比这个更多的列条目。
我应该找到一种策略,用“更好”的值覆盖异常值,还是应该重新考虑我的策略,一开始就为这两种类型的变量拆分训练数据?我不这么认为 不过,摆脱真实 train_data 中的异常行会很有用...
【问题讨论】:
标签: python pandas outliers eda