【发布时间】:2020-10-09 17:18:38
【问题描述】:
我修改了 post 中的一行,以有条件地从 csv 文件中读取行:
filename=r'C:\Users\Nutzer\Desktop\Projects\UK_Traffic_Data\test.csv'
df = (pd.read_csv(filename, error_bad_lines=False) [lambda x: x['Accident_Index'].str.startswith('2005')])
这条线非常适合小型测试数据集。但是,我确实有一个大的 csv 文件要读取,并且读取文件需要很长时间。实际上,最终到达了NotebookApp.iopub_data_rate_limit。我的问题是:
- 有没有办法改进此代码及其性能?
- “Accident_Index”列中的记录已排序。因此,如果达到“Accident_Index”不等于
str.startswith('2005')的值,则可能是中断读取语句的解决方案。你有什么建议吗?
以下是一些示例数据:
所需的输出应该是包含前六名记录的 pandas 数据框。
【问题讨论】:
标签: python pandas performance csv