【发布时间】:2017-02-24 19:59:44
【问题描述】:
我目前正在处理一个大型数据集(大约 30k 行),并且正在创建一个 hedonic 回归。下一步是创建每周虚拟变量。
现在我的数据根据测量数据的日期分配了每周编号。有 50 个不同的周(1-52,2 个失踪未计)。这些每周数字会重复,直到大约10 rows, 之后发生变化,但它们也会重复出现,因为新产品类别是衡量标准。数据集中有 132 个可用,一个类别包含在 100 - 300 rows 之间。
这是数据集的示例
UPC Weeks
1111112016 1
1111112016 1
1111112016 2
1111112016 2
1111112016 3
1111112016 3
1111112440 1
1111112440 1
1111112440 2
1111112440 2
1111112440 3
1111112440 3
现在要创建虚拟变量,我创建了 50 列,每列大约有 30k 行来表示数据集。每当虚拟周(因此列名)和实际周(原始数据集的行)相等时,我想将 1 分配给虚拟周的行。
示例虚拟(DW = 虚拟周):
DW1 DW2
NA NA
NA NA
NA NA
我尝试了以下方法:
for (i in 1:seq(Soap$WEEK)){
if Soap$WEEK[i] == seq(from=1, by=1, to=52){
for (j in names(x)){
x$DW[[j]] = 1
else {
x$DW[[j]] = 0
}}}}
我知道这是错误的,但是我无法解决我的问题。在这件事上我将不胜感激。
【问题讨论】:
标签: r loops dataset regression