【问题标题】:which() function in filter() with dplyr带有 dplyr 的 filter() 中的 which() 函数
【发布时间】:2019-06-14 05:48:26
【问题描述】:

我正在尝试过滤数据集,然后将异常值设置为平均值。示例数据框:

structure(list(INDEX = c(1, 2, 3, 4, 5, 6), TARGET_WINS = c(39, 
70, 86, 70, 82, 75), TEAM_BATTING_H = c(1445, 1339, 1377, 1387, 
1297, 1279), TEAM_BATTING_2B = c(194, 219, 232, 209, 186, 200
), TEAM_BATTING_3B = c(39, 22, 35, 38, 27, 36), TEAM_BATTING_HR = c(13, 
190, 137, 96, 102, 92), TEAM_BATTING_BB = c(143, 685, 602, 451, 
472, 443), TEAM_BATTING_SO = c(842, 1075, 917, 922, 920, 973), 
    TEAM_BASERUN_SB = c(NA, 37, 46, 43, 49, 107), TEAM_BASERUN_CS = c(NA, 
    28, 27, 30, 39, 59), TEAM_BATTING_HBP = c(NA_real_, NA_real_, 
    NA_real_, NA_real_, NA_real_, NA_real_), TEAM_PITCHING_H = c(9364, 
    1347, 1377, 1396, 1297, 1279), TEAM_PITCHING_HR = c(84, 191, 
    137, 97, 102, 92), TEAM_PITCHING_BB = c(927, 689, 602, 454, 
    472, 443), TEAM_PITCHING_SO = c(5456, 1082, 917, 928, 920, 
    973), TEAM_FIELDING_E = c(1011, 193, 175, 164, 138, 123), 
    TEAM_FIELDING_DP = c(NA, 155, 153, 156, 168, 149)), row.names = c(NA, 
-6L), class = c("tbl_df", "tbl", "data.frame"))

使用dplyr,我过滤异常值,然后尝试根据校正(非异常值)均值来改变 TEAM_FIELDING_E 列:

train %>% 
  filter(which(boxplot.stats(train$TEAM_FIELDING_E)$out %in% train$TEAM_FIELDING_E, arr.ind = TRUE) == TRUE) %>% 
  mutate(
    TEAM_FIELDING_E = NA,
    TEAM_FIELDING_E = mean(train$TEAM_FIELDING_E)
  )

这将返回错误Error in filter_impl(.data, quo) : Result must have length 2276, not 303(原始数据集包含 303 个TEAM_FIELDING_E 异常值和 2276 行)。如何使用filter() 以使我的mutate() 只会影响那些过滤的行?

【问题讨论】:

  • 你的最终目标是什么?你如何定义异常值?
  • 我正在尝试用平均值替换 TEAM_FIELDING_E 的异常值。我试图通过过滤那些离群值,然后应用mutate() 来转换离群值(从而更正总体train$TEAM_FIELDING_E),然后将这些NA 变异为更正的平均值。异常值由boxplot.stats() 的标准coef = 1.5 定义。

标签: r dplyr filtering


【解决方案1】:

dplyr 动词中,使用裸变量名而不使用[[$。此外,如果您尝试过滤某个值,您可以直接过滤该值,而不是尝试使用which 来确定匹配的位置。

对于这种情况,您可以在mutate 中使用if_else 获得您想要的。

out <- boxplot.stats(train$TEAM_FIELDING_E)$out

 train %>% 
  mutate(TEAM_FIELDING_E = if_else(TEAM_FIELDING_E %in% out, mean(TEAM_FIELDING_E[!(TEAM_FIELDING_E %in% out)]), TEAM_FIELDING_E))

【讨论】:

  • 在这种情况下,out 是预定义的异常值向量,还是作为某种函数存在于 dplyr 中?
  • 抱歉,忘记在答案中包含我的代码。固定。
猜你喜欢
  • 2023-03-27
  • 1970-01-01
  • 2018-04-20
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2022-08-23
  • 2018-06-26
相关资源
最近更新 更多