【发布时间】:2015-04-24 16:56:01
【问题描述】:
我正在研究一个简单的线性回归模型,用于练习以学习机器学习。我的模型运行正确,但是得分很差,这意味着它是一个糟糕的模型,因此任何关于更好模型的建议都将不胜感激。这是我的模型
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
########## reading training set ##########
data = pd.read_csv("train.csv", delimiter=",", header=0)
x = data[['Col1', 'Col2']]
y = data['Expected']
########## building model ##########
reg = LinearRegression()
reg.fit(x, y)
########## reading test making predictions ##########
data_test = pd.read_csv("test.csv",delimiter=",", header=0)
x_test = data_test[['Col1', 'Col2']]
prediction = reg.predict(x_test)
np.savetxt("prediction.txt",prediction,delimiter=',')
【问题讨论】:
-
两件事:1) 仅仅打印用于处理线性回归的代码是没有用的。您正在分析的数据集样本将比
scikit-learndocs 中类似于每个sn-p 的代码sn-p 更有帮助。 2) 你还应该在 Cross Validated 上提出这个问题,这是 StackOverflow 的机器学习和数据分析衍生产品。 -
我使用 train.csv 文件包含 3 列输入 "Col1" 、 "Col2" 和输出 "Expected" ,我认为它们是随机值或类似的东西,但它们不代表任何东西如果这会让你给我一个很好的建议,我可以上传它们:D
-
既然您只有 2 个特征,为什么不可视化您的数据(显然是 3D),看看它是否具有线性形状?
-
如何做到这一点如何可视化我的数据对不起我是 python 新手?
-
您可以简单地使用 Excel 或任何电子表格来绘制 2D 图形并将其可视化以查看它是否具有任何相关性。
标签: python-2.7 machine-learning linear-regression