【发布时间】:2015-06-26 00:55:31
【问题描述】:
有没有办法在读入数据帧之前或期间过滤数据?
例如,我有以下 csv 数据文件:
time Event price Volume
00:00:00.000, B, 920.5, 57
00:00:00.000, A, 920.75, 128
00:00:00.898, T, 920.75, 1
00:00:00.898, T, 920.75, 19
00:00:00.906, B, 920.5, 60
00:00:41.284, T, 920.75, 5
00:00:57.589, B, 920.5, 53
00:01:06.745, T, 920.75, 3
00:01:06.762, T, 920.75, 2
我想仅读取 'Event'=='T' 和 'Volume'>=100 的数据行。
如果我们读入整个数据集然后过滤掉数据(这就是我现在正在做的),这很容易完成。
我拥有的每个文件都是 10MB,并且有数千个(总共大约 15 GB 数据),这个过程将永远持续下去。所以我想知道是否有一种方法可以在读入时过滤数据,或者有一些其他方法可以加快速度。也许改用数据库?
【问题讨论】:
标签: python sql pandas dataframe