【发布时间】:2016-10-11 22:31:02
【问题描述】:
我正在从需要连接的两个不同数据库中下载两个数据集。当我将它们存储为 CSV 时,它们每个分别约为 500MB。分别装入内存,但是当我同时加载两者时,有时会出现内存错误。当我尝试将它们与熊猫合并时,我肯定会遇到麻烦。
在它们上进行外部联接的最佳方法是什么,以免出现内存错误?我手头没有任何数据库服务器,但如果有帮助,我可以在我的计算机上安装任何类型的开源软件。理想情况下,我仍然想只在 pandas 中解决它,但不确定这是否可能。
澄清一下:合并是指外部连接。每个表有两行:产品和版本。我想检查哪些产品和版本仅在左表、仅右表和两个表中。我用
pd.merge(df1,df2,left_on=['product','version'],right_on=['product','version'], how='outer')
【问题讨论】:
-
你运行的是什么操作系统?
-
请更详细地说明您希望此程序执行的操作以及连接应该在哪些字段上起作用。在最好的情况下,您可以将两个 CSV 文件合并在一起(逐行)。此外,如果您可以发布导致内存错误的代码,这将有很大帮助。
-
我在原问题中添加了更多细节
标签: python pandas memory-management