【发布时间】:2017-03-13 22:27:07
【问题描述】:
当从 CSV 的子集形式查询内存中的数据时,我总是这样做:
df = pd.read_csv('data.csv', chunksize=10**3)
chunk1 = df.get_chunk()
chunk1 = chunk1[chunk1['Col1'] > someval]
for chunk in df:
chunk1.append(chunk[chunk['Col1'] >someval])
我最近开始使用 HDF5,但无法做到这一点,因为 TableIterator 对象没有 get_chunk() 方法或接受 next()。
df = pd.read_hdf('data.h5', chunksize=10**3)
df.get_chunk()
---------------------------------------------------------------------------
AttributeError Traceback (most recent call last)
<ipython-input-19-xxxxxxxx> in <module>()
----> 1 df.get_chunk()
AttributeError: 'TableIterator' object has no attribute 'get_chunk'
任何解决方法的想法? (我知道我可以使用 pandas 从磁盘上的 hdf5 查询,但为此我想尝试这种方式)
【问题讨论】:
标签: python python-2.7 pandas hdf5 pytables