【发布时间】:2019-07-26 17:59:58
【问题描述】:
我正在处理医疗保险索赔数据,并希望识别欺诈性索赔。一直在网上阅读以尝试找到更好的方法。我在 scikit-learn.org 上遇到了以下代码
有人知道如何选择异常值吗?代码将它们绘制在图表中,但如果可能,我想选择那些异常值。
我尝试将 y_predictions 附加到 x 数据帧,但没有奏效。
print(__doc__)
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import LocalOutlierFactor
np.random.seed(42)
# Generate train data
X = 0.3 * np.random.randn(100, 2)
# Generate some abnormal novel observations
X_outliers = np.random.uniform(low=-4, high=4, size=(20, 2))
X = np.r_[X + 2, X - 2, X_outliers]
# fit the model
clf = LocalOutlierFactor(n_neighbors=20)
y_pred = clf.fit_predict(X)
y_pred_outliers = y_pred[200:]
下面是我试过的代码。
X['outliers'] = y_pred
【问题讨论】:
标签: python scikit-learn outliers