【发布时间】:2016-08-01 16:12:14
【问题描述】:
数据.csv:param1,param2,param3,result
1,2,cat1,12
2,3,cat2,13
1,6,cat1,6
1,1,cat2,12
假设我从文件中读取数据并将分类变量转换为虚拟变量,如下所示:
import pandas as pd
from sklearn.cross_validation import train_test_split
from sklearn.linear_model import LinearRegression
data = pd.read_csv('data.csv')
type_dummies = pd.get_dummies(data.house_type)
data = pd.concat([data, type_dummies], axis=1)
我收到数据帧:
1,2,1,0,..
1,6,0,1,..
我对该数据集进行了简单的线性回归并获得了系数。如何使用 pandas 将新记录 (new_data = np.array([12,19,cat1])) 转换为 new_data = np.array([12,19,1,0)) 以在我的线性模型中使用它? (这样新的数据分类变量将被转换为虚拟变量)
【问题讨论】:
-
查看@JAB 的回答:stackoverflow.com/a/28466662/2285236