【发布时间】:2013-05-09 00:38:57
【问题描述】:
我有一个包含 700 万条记录的数据集。
我需要过滤数据以仅显示其中大约 9000 个。
第一个字段 dmg 实际上是主键,格式为 1-Apr-123456。每个 dmg 值大约出现 12 次。
另一列是 O_Y,取值 0 或 1。最常见的是 0,但大约 900 次为 1。
我想返回具有相同 dmg 值的所有行,其中至少有一条记录具有且 O_Y 值为 1。
【问题讨论】:
-
你能将数据读入 R (RAM) 吗?如果没有,包
sqldf可以完成任务。 -
Read this 学习如何提出好问题
-
喜欢这个?假设
0_Y是第 j 列。foo<-readLines(datafile,n=1); if foo[j]==1 my.data<-rbind(my.data,foo),然后循环记录尽可能多的记录。 -
Roman,谢谢 - 是的,它可以在 R 中正常读取。需要几分钟,但没关系。
-
谢谢,Carl,我会试一试,然后告诉你我的进展情况。