【发布时间】:2019-04-06 17:04:49
【问题描述】:
我有这个数据集,其中包括一家公司在给定年份的所有销售额(公司代码 = gvkey,年份 = fyeqarq,销售额 = saley)。我想删除所有具有归于公司的 NA 值的行。换句话说,从数据集中完全删除具有单个 NA 值的公司。我还需要删除所有没有至少 11 年销售额的公司。每年有四个值,因为它衡量每个季度的销售额。
我设法使用 na.omit 自己删除了 NA 值,但我需要使用这两个条件从数据集中删除整个公司数据。
所以从整个数据集 dfUSA 中,应该删除这家编码为 1001 的公司。
df.clean <- na.omit(dfUSA)
以上只会删除 NA 值。但公司仍会存在。
gvkey fyearq saley
1 1001 1983 4,921
2 1001 1983 NA
3 1001 1983 NA
4 1001 1983 NA
5 1001 1984 6,434
6 1001 1984 NA
7 1001 1984 NA
8 1001 1984 NA
9 1001 1985 7,865
10 1001 1985 NA
11 1001 1985 NA
12 1001 1985 NA
它也只有 3 年的数据,这是应该删除它的另一个原因。一些公司可能拥有所有销售价值,但不到 11 年的数据。所以我还需要一种方法来检查它。我怎样才能做到这一点?
这是我的第一篇文章,因此如果需要,我可以提供更多信息。
【问题讨论】: