【发布时间】:2019-07-03 22:04:02
【问题描述】:
我对数据集执行了岭回归模型 (数据集链接:https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data) 如下:
from sklearn.linear_model import Ridge
from sklearn.model_selection import train_test_split
y = train['SalePrice']
X = train.drop("SalePrice", axis = 1)
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.30)
ridge = Ridge(alpha=0.1, normalize=True)
ridge.fit(X_train,y_train)
pred = ridge.predict(X_test)
我使用 sklearn 中的指标库计算了 MSE
from sklearn.metrics import mean_squared_error
mean = mean_squared_error(y_test, pred)
rmse = np.sqrt(mean_squared_error(y_test,pred)
我得到的 MSE = 554084039.54321 和 RMSE = 21821.8 的值非常大,我试图了解我的实现是否正确。
【问题讨论】:
-
请提供您的
mean_sqaured_error和RMSE 的代码、您如何拆分数据、您获得的MSE 的值是什么以及您的数据集的链接/描述。 -
@SzymonMaszke 我已经用代码更新了问题
标签: python machine-learning scikit-learn sklearn-pandas mse