【发布时间】:2021-01-28 05:31:41
【问题描述】:
我想从股票预测数据集中检测和删除异常值。我必须获取一列还是整个数据集?
【问题讨论】:
-
如果数据集中有多个分布不同的变量,则需要分别绘制它们。甚至不确定您所说的“获取...整个数据集”是什么意思...
标签: python jupyter-notebook dataset seaborn outliers
我想从股票预测数据集中检测和删除异常值。我必须获取一列还是整个数据集?
【问题讨论】:
标签: python jupyter-notebook dataset seaborn outliers
1.) 您应该选择要从中删除异常值的特定列。不是整个数据集。
2.) 如果您想使用箱线图去除异常值,您可以通过设置下限和上限值来使用四分位间距 (IQR)。也可以使用 pandas 轻松删除异常值。看看这个帖子https://datascience.stackexchange.com/questions/54808/how-to-remove-outliers-using-box-plot
注意:我发现这篇文章很有用。 https://medium.com/datadriveninvestor/finding-outliers-in-dataset-using-python-efc3fce6ce32
【讨论】: