【发布时间】:2018-09-28 20:05:43
【问题描述】:
我想找出提示清理/数据错误的缺失观察结果。
我的数据框由多年来的许多帐户组成。以下是它遵循的规则:
- 帐户可能被创建或终止。在这些情况下,金额为 0 美元或 NA。此类观察(可能)不是不良数据的结果。
- 账户被 NA 或 $0中断 可能是错误数据或清理错误的结果。
在下面的数据中,账户 A-E 显示了 2001-2004 年的金额。
df <- tribble(
~account, ~"2001", ~"2002", ~"2003", ~"2004",
"Account.A", 100, 90, 87, 80, #<Good
"Account.B", 0, 20, 30, 33, #<Good
"Account.C", 50, 55, 0, 0, #<Good
"Account.D", 200, 210, NA, 210, #<Bad
"Account.E", 150, 0, 212, 211) #<Bad
账户 A、B、C 显示良好的数据:
- 帐户 A 显示不间断的数据
- 帐户 B 显示的帐户始于 2002 年。
- 帐户 C 显示的帐户于 2003 年到期,此后一直保持 0 美元。
账户 D 和 E 显示不良数据:
- 帐户 D 显示帐户在 2003 年中断
- 帐户 E 显示 2002 年中断的帐户
我的目标是识别中断的行(D,E)并标记它们。
我想要一个可以推广到多年和数千个帐户的解决方案。
【问题讨论】: