【发布时间】:2019-03-18 19:47:29
【问题描述】:
让我们考虑一个场景
- Accounts.csv
- Transaction.csv
我们将每个帐号映射到交易详情,因此一个帐号可以进行多笔交易。使用这些详细信息,我们必须为每个帐户生成 PDF
如果假设事务 CSV 文件非常大(>1 GB),那么加载所有详细信息和解析可能是内存问题。那么解析事务文件的最佳方法是什么?逐块读取也会导致内存消耗。请指教
【问题讨论】:
-
我会将它们加载到数据库中,然后执行查询。
-
1GB 不会被视为“非常大”的 IMO。对于相当大的堆,这根本不会有任何问题(特别是如果您逐块读取它)。将其加载到数据库中会浪费大量时间和资源。