【发布时间】:2019-02-16 15:37:19
【问题描述】:
我正在尝试解析一个巨大数据集的一部分。我拥有的数据集部分是一个 3GB 的 gzip 文件。该文件是结构化的,因此它有 x 列和数百万行。这些列由逗号或某种通用运算符分隔,因此我可以读取文件。
我想要做的是基于 2 个范围(即值 a
我缺少的是对如何处理这样的迭代的基本理解。在使用 pandas read_csv 函数来过滤数据集后,我正在努力处理如何处理该集合。我想我应该使用数据框来访问我正在寻找的数据,但我不确定。
【问题讨论】:
-
您能否展示一个虚拟数据集来演示您的需求以及预期的输出?this 可能会有所帮助
-
"x", "b", "c", "d", "12", "30", "d" 是一个示例行,每一行在 " " 中都有不同的值.基本上我想检查集合中的每一行。例如,如果第 5 列的值介于 10 和 15 之间,而第 6 列的值介于 40 和 50 之间,则接受整行并将其移动到新的文件/数据集中。因此,最终输出看起来与原始数据集相同,但只有通过已建立的 2 个参数范围的行。
-
示例数据集:
"X”, “a”, “1”, “15”“Y”, “a”, “12”, “44”“Z”, “a”, “13”, “39”“W”, “a”, “11”, “47”过滤器:如果第三列值介于 10 和 15 之间,并且第四列值介于 40 和 50 之间,则接受整行。示例输出:“Y”, “a”, “12”, “44”“W”, “a”, “11”, “47” -
这也无济于事。你真的应该通过我上面评论中的链接。和this
-
我不明白在概念上回答这个问题还需要什么。我并不是真的在寻找代码答案。代码中没有错误,因为没有代码。我只是在寻找关于如何根据参数值过滤大型数据集的概念性答案。如果我在错误的论坛中提问,请告诉我。
标签: python pandas filtering gzip