【发布时间】:2020-09-03 17:33:21
【问题描述】:
相对较新,并尝试使用 python 从 CSV 文件中拆分一些数据。 我的数据结构如下:
Time| Signature
--------------------
0 | Class1#Method1
1 | Class4#Method5
2 | Class5# <--note that Class 5 has no method
我试图完成的是操纵数据集,使其成为
Time| Class | Method
--------------------
0 | Class1 | Method1
1 | Class4 | Method5
第5类在拆分过程中被删除,因为它没有方法。
我尝试遍历整个数据集 - 可以,但在处理 5gb csv 文件时速度非常慢。有没有人有更快的方法?速度才是最重要的
【问题讨论】:
-
我们需要更多解释:您是否使用 Pandas 来处理您的 csv 行?您的 Signature 属性是您首先必须分离的“Class1#Method1”之类的字符串,还是已经通过另一种方式完成了分离?
-
是的,我使用 pandas 数据框来处理数据。我的签名属性是一个类似“Class1#Method1”的字符串。我试图完成的是将 Class1#Method1 拆分为 Class1 和 Method1 (所以分隔符是#)并丢弃没有方法的签名@BeamsAdept
标签: python python-3.x pandas