是的,这是一个实际的用例。
如果您有一个带标签的数据意味着,您有一个工作表,其中员工开始日期和结束日期是已知的现有任务,现在您想预测任何新任务的结束日期,您可以使用具有多个变量的线性回归。
有关具有多个变量的线性回归的更多信息,请通过此链接:
https://www.investopedia.com/terms/m/mlr.asp
无论如何,不要对那个理论感到困惑。简单来说,线性回归是一种对变量(列)之间的关系进行建模的方法。具有一个变量的线性回归意味着,您试图仅使用一个变量(列)来预测结束日期,即在您的情况下为开始日期。如果您想使用多个变量(列)来预测结束日期,即开始日期、任务复杂性、子任务等;您必须使用具有多个变量的线性回归。我正在使用房价预测模型。
下面是使用python实现一个变量的线性回归,我们将只使用一个变量来预测房价:
import pandas as pd #used for uploading your datasets #you have to import machine learning libraries
import numpy as np #for array
from sklearn import linear_model #for prediction
df = pd.read_csv('/content/MLPractical2 - Sheet1.csv') #you need to upload your file
df
输出:我上传的文件,包含以下数据
面积 ||价格
2600 || 555000
3000 || 565000
3200 || 610000
3600 || 680000
4000 || 725000
让我们预测3601区的房价:
reg = linear_model.LinearRegression()
reg.fit(df[['Area']], df.Price)
reg.predict([[3601]])
输出:数组([669653.42465753])
我们仅根据一个变量(列)即面积来预测价格
正如您在我上传的文件中看到的那样,面积为 3600 的房屋价格为 680000,我们的算法预测的面积为 3601 的价格为 669653.42465753,非常接近。
让我们看一下使用python实现多变量线性回归;我们将使用多个变量来预测我们的房价
import pandas as pd #same as above
import numpy as np
from sklearn import linear_model
df = pd.read_csv('/content/ML_Sheet_2.csv')
df
输出:我在这种情况下上传的文件包含以下数据
面积 ||卧室 ||年龄 ||价格
2600 || 3.0 || 20 || 550000
3000 || 4.0 || 15 || 565000
3200 ||3.0 ||18 || 610000
3600 || 3.0 || 30 || 595000
4000 || 5.0 || 8 || 760000
我们来预测一下3500区3房10年的房价
reg = linear_model.LinearRegression()
reg.fit(df[['Area', 'Bedroooms', 'Age']], df.Price)
reg.predict([[3500, 3, 10]])
输出:数组([717775])
我们根据三个变量来预测房价,即面积、卧室数量和房屋年龄。
正如您在我上传的文件中看到的那样,面积为 3200、3 间卧室和 18 年的房屋价格为 610000,我们的算法预测的价格为 3500 区(超过 3200)、3 间卧室和 10岁是 717775,这是非常接近且可以理解的,因为我们预测的房屋面积大于 3200,年龄小于 18 岁(新房价格更高)。
同样,您也可以准备一份现有数据的 Excel 表格,并将其保存为 .csv 格式,然后像我一样继续进行。我正在使用 google colab 编写代码;我更喜欢你使用相同的:
https://colab.research.google.com/notebooks/intro.ipynb#recent=true
希望对您有所帮助!