【问题标题】:Multivariate regression with numpy in PythonPython中使用numpy进行多元回归
【发布时间】:2016-04-28 02:57:23
【问题描述】:

我正在学习使用 Python 进行机器学习,并且有一个关于回归的问题。 我做了一些简单的回归(线性或多项式),但我的问题是关于多元回归。我只使用x(输入数组),y 是输出。

如果我有一些关于森林火灾的数据 (http://archive.ics.uci.edu/ml/datasets/Forest+Fires)

X,Y,month,day,FFMC,DMC,DC,ISI,temp,RH,wind,rain,area
7,5,mar,fri,86.2,26.2,94.3,5.1,8.2,51,6.7,0,2
7,4,oct,tue,90.6,35.4,669.1,6.7,18,33,0.9,0,12

在这种情况下,我的输入不是一个简单的数组而是一个矩阵,我的输出是烧毁的面积。

所以对于我之前的数据,输入X是

X = [[7, 5, mar, fri, 86.2, 26.2, 94.3, 5.1, 8.2, 51, 6.7 , 0], 
[7, 4, oct, tue, 90.6, 35.4, 669.1, 6.7, 18, 33, 0.9, 0]] 

输出

Y = [2,12]

如何进行这种回归? 我不想要代码,只想要一些关于多元回归的想法。我正在使用 numpy,但也许某些库对这个问题更有效。

【问题讨论】:

  • 统计模型? scikit-learn?

标签: python numpy machine-learning statistics regression


【解决方案1】:

线性回归通常对分类变量(例如天或月)没有意义。您要做的是将变量月份转换为 12 个二进制变量(查找“虚拟变量”)一月、二月等,并省略其中任何一个以供模型识别。然后,这些变量的系数会为您提供条件均值相对于您忽略的变量的差异。

【讨论】:

    猜你喜欢
    • 2016-04-19
    • 2011-02-17
    • 1970-01-01
    • 2019-07-20
    • 2013-07-14
    • 1970-01-01
    • 2013-12-27
    • 2016-07-21
    • 2018-02-03
    相关资源
    最近更新 更多