【发布时间】:2019-05-15 18:52:20
【问题描述】:
我有一个包含分类变量的数据集class我正在尝试解决一个回归问题
我不明白是否应该在整个数据集上构建模型并将变量 class 作为输入变量之一,还是应该为每个类构建一个完全不同的模型。
什么是通用规则,可以帮助我在两种方法之间做出决定。
这是我的数据的样例
+------------+----+-----+-----------------+
| Class | X1 | X2 | Speed |
+------------+----+-----+-----------------+
| Class1 | 12 | 123 | 10 |
| Class2 | 14 | 120 | 32 |
| Class3 | 15 | 34 | 12 |
| . | . | . | . |
| . | . | . | . |
| . | | | |
| Class 300 | 23 | 13 | 45 |
+------------+----+-----+-----------------+
Class 是输入分类变量,我有大约 300 个类。输出变量是Speed。我正在尝试使用变量Class、X1、X2 来预测速度。
我应该为每个Class 分别建立一个模型吗?所以当我知道输入类型是Class1 时,我会选择为Class1 构建的模型。当输入类型为Class2 时,我将使用为Class2 构建的模型等等。 Class 变量中的值也可以重复,意思是 Class1 可以出现 4 次,Class2 可以出现 8 次等
我想的另一种方法是将 Class 本身作为变量包含在内,然后只构建一个模型。
我不知道哪个是正确的方法
【问题讨论】:
-
1) 请编辑您的帖子以保持一致性 - 您提到“大约 10 个课程”和“大约 300 个课程”2) 没有“正确”的方法;虽然第一种方法自然是用
class作为输入变量来构建一个模型,但如果你觉得这样的话,你也绝对应该尝试另一种方法 3) 这个问题在这里可以说是题外话,因为它是不是关于编程,而是关于建模方法,其适当的站点是Cross Validated 或Data Science。 -
@desertnaut 已编辑。谢谢指出
标签: machine-learning scikit-learn regression categorical-data