Python比较关系数据库中两个表之间的数百万行和数百列答案

【问题标题】：Python comparing millions of rows and hundreds of columns between two tables from relational DBPython比较关系数据库中两个表之间的数百万行和数百列
【发布时间】：2019-05-14 19:45:23
【问题描述】：

目前我们的系统处于现场验证阶段。因此，我们需要检查生产中填充的表集是否与沙盒（测试）中填充的表匹配。目前我们已经为每个表比较编写了一个查询，然后在 sql 客户端中运行它来检查它。将来会有更多的表要检查。我想通过将表名提供给一个函数来在 python 中自动化该过程，然后该函数可以将两个表加载到数据框中，然后进行比较以突出差异。

有些表一天有 270 万行，宽有 400 列。当我尝试将数据（2.7 m 行 * 400 列）加载到数据框中时，我收到一个错误，因为我在 Jupyter 中运行我的查询时内存不足，我只有 20 GB 的限制。这里有什么选择？ Pandas 数据框是比较这个大型数据集的唯一方法吗？还是有任何其他库可以实现相同的目标？

【问题讨论】：

标签： python python-3.x pandas pandasql

【解决方案1】：

为了处理这种数据，我建议使用 Hadoop 而不是 pandas/python。这不是一个很好的答案，但我还不能发表评论。

【讨论】：