【发布时间】:2020-06-04 08:31:24
【问题描述】:
我有一系列大型(且格式不正确)的 Excel 电子表格,我正在尝试使用 pandas 进行处理。每个 excel 文件包含 50-60 张工作表,我只对每个文件中的工作表子集感兴趣。
我尝试将整个电子表格作为pd.ExcelFile 对象读取,因此我可以使用sheet_names 属性来解析特定工作表(而且我不知道每个工作表的名称提前)。这有效 - 但似乎异常缓慢(每个 ~30mb excel 文件接近一分钟)。
我只能假设这是因为每个工作表都被解析为 pd.ExcelFile 对象正在初始化(...可能是错误的?)。如果是这样,有没有办法防止这种行为? - 我真的只想获取工作表名称,然后从那里解析特定的工作表。
提前致谢!
【问题讨论】:
-
也许这个话题可以帮到你:stackoverflow.com/questions/12250024/…