【发布时间】:2017-07-27 17:14:30
【问题描述】:
在 0.16.1 版本中,chunksize 参数可用。
见:http://pandas.pydata.org/pandas-docs/version/0.16.1/generated/pandas.ExcelFile.parse.html
但在最新版本中它不可用。
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.ExcelFile.parse.html
删除的原因是什么?
另外,最新版本的excel文件如何分块处理?
我以前在下面做:
import pandas as pd
excel = pd.ExcelFile("test.xlsx")
for sheet in excel.sheet_names:
reader = excel.parse(sheet, chunksize=1000)
for chunk in reader:
# process chunk
【问题讨论】:
-
它在
0.17.0中不受支持并被删除,因此它现在会引发 unsupportedError。请参阅 github.com/pandas-dev/pandas/pull/11198 和 github.com/pandas-dev/pandas/issues/8011。由于它使用xlrd,这看起来像是将整个工作表加载到内存中,到目前为止chunksize尚未添加回来