【问题标题】:Regression analysis for linear regression线性回归的回归分析
【发布时间】:2019-03-07 03:08:07
【问题描述】:

我有一个回归模型,其中我的目标变量(天)定量值介于 2 到 30 之间。我的 RMSE 是 2.5,所有其他 X 变量(名义)都是分类的,因此我对它们进行了虚拟编码。 我想知道什么是 RMSE 的好值?我想在 1-1.5 甚至更小的范围内得到一些东西,但我不知道我应该怎么做才能达到同样的效果。

注意#我已经尝试过特征选择和删除特征将不太重要。

任何想法都将不胜感激。

【问题讨论】:

    标签: python machine-learning sklearn-pandas


    【解决方案1】:

    如果您的 x 值是分类的,那么将它们绑定到统一网格就不一定有意义。谁说类别 A 和 B 应该与 B 和 C 间隔相同。假设它们是只会导致结果的不正确表示。

    由于您选择的比例是未知数,因此您最好在可视化方面将统一的 x 网格设置为天数,然后在给定线性关系的情况下查看类别在 y 比例上的位置。

    如果您没有 x 和 y 的定量数据,则根本不会出现 RMS 误差。

    【讨论】:

    • 我不确定我的问题是否不够清楚。我的 Y 或目标变量是定量的,但我的 X 变量是分类的。我已经完成了方差分析并选择了方差较大的那些。
    • 是的,但线性回归试图将两个定量变量拟合到线性方程。由于您的 x 变量不是定量的,因此线性回归是不合适的,除非您可以将这些类别映射为数量。
    • 我已经按照我之前所说的对它们进行了虚拟编码......所以它们现在是 0 和 1 的向量......
    • 不要对它们进行虚拟编码。根据一个值对它们进行编码,该值将为您提供零误差的线性关系。
    猜你喜欢
    • 2012-12-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-05-27
    • 2019-10-09
    • 2019-08-17
    • 2020-08-26
    相关资源
    最近更新 更多