【发布时间】:2020-09-25 19:11:02
【问题描述】:
我正在使用来自 Kaggle 的 Housing train.csv 数据进行预测。
https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data?select=train.csv
我正在尝试生成相关性,并且仅将与 SalePrice 相关的特征保持在 0.5 到 0.9 之间。我试图使用这个函数来过滤其中的一些,但我只删除了高于 0.9 的相关值。 如何更新此函数以仅保留生成相关热图所需的那些特定特征?
data = train
corr = data.corr()
columns = np.full((corr.shape[0],), True, dtype=bool)
for i in range(corr.shape[0]):
for j in range(i+1, corr.shape[0]):
if corr.iloc[i,j] >= 0.9:
if columns[j]:
columns[j] = False
selected_columns = data.columns[columns]
data = data[selected_columns]
【问题讨论】:
-
所以你想要一个只有这些列的数据框,而所有其他列都被删除了?
-
是的,如果可以的话,请。
-
我在答案中做了同样的事情:)
标签: python