【发布时间】:2023-03-13 23:40:01
【问题描述】:
我在 R 中处理 104500 个观察的数据集。我想删除基于列名“state”的行,该列名称为“TX”和“NY”。
我正在使用以下代码
customers <- customers[customers$State != "TX"]
我收到以下错误
错误:逻辑索引向量的长度必须是 1 或 11(行数),而不是 104541
谁能帮我解决这个问题?
【问题讨论】:
标签: r data-cleaning
我在 R 中处理 104500 个观察的数据集。我想删除基于列名“state”的行,该列名称为“TX”和“NY”。
我正在使用以下代码
customers <- customers[customers$State != "TX"]
我收到以下错误
错误:逻辑索引向量的长度必须是 1 或 11(行数),而不是 104541
谁能帮我解决这个问题?
【问题讨论】:
标签: r data-cleaning
我想你在最后漏掉了一个逗号。
customers <- customers[customers$State != "TX", ]
^
因此,您可以根据过滤器选择行和所有列。
HTH
请在下次提供可重现的示例。
【讨论】:
我建议你学习如何使用dplyr,以及tidyverse 中的其他包。我发现它们是清理数据不可或缺的工具。
以下是我将如何使用dplyr 在您的数据集中过滤掉德克萨斯和纽约:
library(dplyr)
customers = filter(customers, State != "TX" & State != "NY")
或者,
customers = filter(customers, !(State %in% c("TX", "NY")))
【讨论】: