【发布时间】:2019-01-19 14:08:44
【问题描述】:
我想为我的数据集中的 semester 列创建一个分类变量。我还有其他带有目标的附加变量 - 未在表中显示。
训练集:包括2016-2017
测试集或验证集:仅包括 2018
我担心的是,当我制作预测模型时,我将拥有训练集中不存在的分类变量(因子)(即 2018 年春季、2018 年夏季–第一次会议等)。这在理论上会是一个问题吗?如何处理?
Start End Semester
Jan 19,2016 May 6,2016 SPRING 2016
May 16,2016 Jun 25,2016 SUMMER 2016-FIRST SESSION
Jun 27,2016 Aug 6,2016 SUMMER 2016-SECOND SESSION
Aug 24,2016 Dec 16,2016 FALL 2016
Jan 17,2017 May 5,2017 SPRING 2017
May 15,2017 Jun 24,2017 SUMMER 2017–First SESSION
Jun 26,2017 Aug 5,2017 SUMMER 2017-SECOND SESSION
Aug 23,2017 Dec 15,2017 FALL 2017
Jan 16,2018 May 4,2018 SPRING 2018
May 14,2018 June 23,2018 SUMMER 2018–First SESSION
Jun 25,2018 Aug 4,2018 SUMMER 2018-SECOND SESSION
Aug 22,2018 Dec 14,2018 Fall 2018
【问题讨论】:
-
您有具体的编程问题吗?
-
@markus 我的问题是从实现和理论的角度来看,如何处理不在训练集中的类别。换句话说,如果我有一个不在训练集中的因素是一个问题。第二件事如何在R中做到这一点?谢谢
-
对于您问题的 R 部分,请查看vtreat package。
-
ML 算法适用于具有模式的数据。您的问题不完整或您的数据必须有规律。您能否详细说明您的问题以获得具体答案
-
@Waseem Ahmad Naeem 我正在使用 2016 年和 2017 年的 2 年数据来预测 2018 年我了解 ML 算法适用于具有模式的数据,我的问题是关于我在测试或验证集中是否有其他因素(测试集)例如,如果我想创建变量“年份”作为分类变量,它将包括从 2016 年到 2017 年的年份,并且在测试集中我必须放入未经训练的因子变量 2018 不会有问题? .让我知道我的问题是否清楚。
标签: dataset data-mining prediction categorical-data