【问题标题】:datatypes in macgien learning机器学习中的数据类型
【发布时间】:2020-05-25 06:35:42
【问题描述】:

我有不同数据类型的表。我的一些专栏是:

名称、时间、日期、文件数量、小时工作量、工作类型

Jack, 2015-02-15, 82, 20, 10:24:54, 项目经理 ….等等

我想通过使用随机森林模型训练这些特征来预测公司的 type_of_job。 我的问题是我应该将列转换为特定的数据类型以获得良好的准确性,时间和数据呢?我有大约 48970 行,这是我第一次使用机器学习。

【问题讨论】:

    标签: dataframe machine-learning random-forest data-conversion sqldatatypes


    【解决方案1】:

    是的,需要转换数据。通常所有的列都应该有数字格式:

    • 您可以从时间中提取特征 - 天、小时、周等;
    • 作业类型是一个分类特征,常用的转换方法有labelencoding和onehotencoding;
    • 其他分类列也可以这样做,例如名称;
    • 如果你使用线性模型,那么数值特征应该被归一化;

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2020-07-23
      • 1970-01-01
      • 2016-04-20
      • 1970-01-01
      • 2012-09-26
      • 2019-03-06
      • 1970-01-01
      • 2017-06-21
      相关资源
      最近更新 更多