【发布时间】:2019-08-26 10:49:51
【问题描述】:
R dplyr 变异代码用于将 df$Acres 从“1 月 10 日”更改为“1 到 10”。但是,一个负面影响是,当进行 -> df$Acres 分配时,列名“Acres”的剩余 data.frame 添加了“Acres.Acres”、“Acres.FamilyIncome”。这可以在下面的 str(df) 中看到:
df %>%
mutate(Acres = case_when(Acres == "10-Jan" ~ "1 to 10",
TRUE ~ Acres)) -> df$Acres
> str(df)
'data.frame': 22745 obs. of 18 variables:
$ Acres :'data.frame': 22745 obs. of 18 variables:
..$ Acres : chr "1 to 10" "1 to 10" "1 to 10" "1 to 10" ...
..$ FamilyIncome: int 150 180 280 330 330 480 520 550 1400 1400 ...
..$ FamilyType : chr "Married" "Female Head" "Female Head" "Female Head" ...
..$ NumBedrooms : int 4 3 4 2 3 0 3 3 3 3 ...
..$ NumChildren : int 1 2 0 1 1 3 2 1 1 2 ...
..$ NumPeople : int 3 4 2 2 2 4 3 2 4 3 ...
..$ NumRooms : int 9 6 8 4 5 1 8 5 9 7 ...
..$ NumUnits : chr "Single detached" "Single detached" "Single detached" "Single detached" ...
..$ NumVehicles : int 1 2 3 1 1 0 0 1 2 1 ...
..$ NumWorkers : int 0 0 1 0 0 0 0 1 1 1 ...
..$ OwnRent : chr "Mortgage" "Rented" "Mortgage" "Rented" ...
..$ YearBuilt : chr "1950-1959" "Before 1939" "2000-2004" "1950-1959" ...
..$ HouseCosts : int 1800 850 2600 1800 860 700 270 800 710 1500 ...
..$ ElectricBill: int 90 90 260 140 150 140 130 1 150 300 ...
..$ FoodStamp : chr "No" "No" "No" "No" ...
..$ HeatingFuel : chr "Gas" "Oil" "Oil" "Oil" ...
..$ Insurance : int 2500 0 6600 0 660 0 100 0 1000 0 ...
..$ Language : chr "English" "English" "Other European" "English" ...
$ FamilyIncome: int 150 180 280 330 330 480 520 550 1400 1400 ...
$ FamilyType : chr "Married" "Female Head" "Female Head" "Female Head" ...
原来的data.frame有18个变量,dplyr mutate执行后,更新后的data.frame还是有18个变量,但现在增加了'Acres.Acres'、'Acres.FamilyIncome'等。
【问题讨论】:
-
mutate返回带有添加列的整个数据框,而不仅仅是添加的列。您应该使用df <-分配它 -
另外,看起来您正在修复一个导入错误,它猜测
1-10是一个日期?这是正确的还是作为"10-Jan"导入的字符串?您也许可以在导入时修复它 -
是的,我正在修复“2019 年 1 月 10 日”的导入日期,但在 read.csv 上以“10-Jan”的形式导入 data.frame,我使用了 stringsAsFactors=F跨度>