【问题标题】:Predict value using non numeric values in Multiple Linear Regression在多元线性回归中使用非数值预测值
【发布时间】:2019-06-11 23:14:45
【问题描述】:

我有一个包含数字和非数字的数据集。有一个名为模型名称、制造年份、传输类型、燃料类型、发动机容量和燃料消耗的列。我需要用上述因素来计算油耗。 我需要知道如何, 是否可以转换非数值 转换数值并预测油耗?

Click here to visit dataset

【问题讨论】:

标签: python machine-learning dataset linear-regression


【解决方案1】:

您需要将所有字符串值转置为列并用 0 或 1 填充它们,这听起来像是一项艰巨的任务,但就像上面提到的 G. Anderson 一样,有一些库可以让它变得超级简单。

我会使用 get_dummies 创建一个通用函数,如下所示:

def dummy_df(df, todummy_list):
    for x in todummy_list:
            dummies = pd.get_dummies(df[x], prefix=x, dummy_na=False)
            df = df.drop(x, 1)
            df = pd.concat([df, dummies], axis=1)
    return df

并调用具有所有需要虚拟化的功能的函数

todummy_list = ['MODEL_NAME', 'TRANS_TYPE', 'FUEL_TYPE']
train = dummy_df(train, todummy_list)

考虑到“train”是一个 pandas 数据框。

【讨论】:

    猜你喜欢
    • 2017-11-26
    • 2020-04-24
    • 2020-06-16
    • 1970-01-01
    • 1970-01-01
    • 2016-08-26
    • 1970-01-01
    • 2021-01-04
    • 2013-10-31
    相关资源
    最近更新 更多