【发布时间】:2019-09-05 17:45:21
【问题描述】:
我有一个包含超过 200 万行和几列的数据集。有些列是医院代码,对应于每位患者在住院期间的所有状况。我需要为每个条件执行一些摘要,因此我正在尝试创建一个数据集,其中包含有关感兴趣的单个条件的信息。
代码有 5 位,但有时我想选择以三位开头的代码(其余两位无关紧要),例如,我希望每一行的代码在所有列中都以 401 开头包含这些代码。小例子:
id dx_1 dx_2 dx_3 dx_n
1 401
2 2500 4011
3 18524
我想要 id 1 和 2。我尝试了一些方法,但出现错误并且速度很慢。任何指针或建议都是最受欢迎的。如果有任何不清楚的地方,我会尽力提供更多信息。
final_DB[apply(grep(paste("^", i, sep=""), final_DB[,10:29]), 1, any),]
i 对应于我想要的数字,所以在这种情况下 i <- 401 和第 10 到 29 列是此代码可能所在的所有列。
【问题讨论】: