【问题标题】:How to Predict Employee task End_Date through machine-learning如何通过机器学习预测员工任务 End_Date
【发布时间】:2020-04-23 03:35:43
【问题描述】:

如何预测下面以及哪种算法最适合。

员工有工作活动开始日期和结束日期(列)。 工作表几乎没有其他列,例如 Work_Complexity (High & Low) ,没有。每个活动的子任务。

如何预测 Start_Date 的 Work Activity End_Date?必须使用哪种 ML 算法?

这可以被认为是一个现实的用例吗?

谢谢!!!

【问题讨论】:

    标签: machine-learning artificial-intelligence non-linear-regression


    【解决方案1】:

    是的,这是一个实际的用例。

    如果您有一个带标签的数据意味着,您有一个工作表,其中员工开始日期和结束日期是已知的现有任务,现在您想预测任何新任务的结束日期,您可以使用具有多个变量的线性回归。 有关具有多个变量的线性回归的更多信息,请通过此链接: https://www.investopedia.com/terms/m/mlr.asp

    无论如何,不​​要对那个理论感到困惑。简单来说,线性回归是一种对变量(列)之间的关系进行建模的方法。具有一个变量的线性回归意味着,您试图仅使用一个变量(列)来预测结束日期,即在您的情况下为开始日期。如果您想使用多个变量(列)来预测结束日期,即开始日期、任务复杂性、子任务等;您必须使用具有多个变量的线性回归。我正在使用房价预测模型。

    下面是使用python实现一个变量的线性回归,我们将只使用一个变量来预测房价:

    import pandas as pd  #used for uploading your datasets #you have to import machine learning libraries
    import numpy as np   #for array
    from sklearn import linear_model  #for prediction
    
    df = pd.read_csv('/content/MLPractical2 - Sheet1.csv')  #you need to upload your file
    df
    

    输出:我上传的文件,包含以下数据

    面积 ||价格

    2600 || 555000

    3000 || 565000

    3200 || 610000

    3600 || 680000

    4000 || 725000

    让我们预测3601区的房价:

    reg = linear_model.LinearRegression()
    reg.fit(df[['Area']], df.Price)
    reg.predict([[3601]])
    

    输出:数组([669653.42465753])

    我们仅根据一个变量(列)即面积来预测价格

    正如您在我上传的文件中看到的那样,面积为 3600 的房屋价格为 680000,我们的算法预测的面积为 3601 的价格为 669653.42465753,非常接近。

    让我们看一下使用python实现多变量线性回归;我们将使用多个变量来预测我们的房价

    import pandas as pd                  #same as above
    import numpy as np
    from sklearn import linear_model
    df = pd.read_csv('/content/ML_Sheet_2.csv')
    df
    

    输出:我在这种情况下上传的文件包含以下数据

    面积 ||卧室 ||年龄 ||价格

    2600 || 3.0 || 20 || 550000

    3000 || 4.0 || 15 || 565000

    3200 ||3.0 ||18 || 610000

    3600 || 3.0 || 30 || 595000

    4000 || 5.0 || 8 || 760000

    我们来预测一下3500区3房10年的房价

    reg = linear_model.LinearRegression()
    reg.fit(df[['Area', 'Bedroooms', 'Age']], df.Price)
    reg.predict([[3500, 3, 10]])
    

    输出:数组([717775])

    我们根据三个变量来预测房价,即面积、卧室数量和房屋年龄。

    正如您在我上传的文件中看到的那样,面积为 3200、3 间卧室和 18 年的房屋价格为 610000,我们的算法预测的价格为 3500 区(超过 3200)、3 间卧室和 10岁是 717775,这是非常接近且可以理解的,因为我们预测的房屋面积大于 3200,年龄小于 18 岁(新房价格更高)。

    同样,您也可以准备一份现有数据的 Excel 表格,并将其保存为 .csv 格式,然后像我一样继续进行。我正在使用 google colab 编写代码;我更喜欢你使用相同的:

    https://colab.research.google.com/notebooks/intro.ipynb#recent=true

    希望对您有所帮助!

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2020-12-12
      • 2022-10-17
      • 2011-10-04
      • 1970-01-01
      • 1970-01-01
      • 2012-01-27
      • 1970-01-01
      相关资源
      最近更新 更多