【发布时间】:2019-05-14 19:45:23
【问题描述】:
目前我们的系统处于现场验证阶段。因此,我们需要检查生产中填充的表集是否与沙盒(测试)中填充的表匹配。目前我们已经为每个表比较编写了一个查询,然后在 sql 客户端中运行它来检查它。将来会有更多的表要检查。我想通过将表名提供给一个函数来在 python 中自动化该过程,然后该函数可以将两个表加载到数据框中,然后进行比较以突出差异。
有些表一天有 270 万行,宽有 400 列。当我尝试将数据(2.7 m 行 * 400 列)加载到数据框中时,我收到一个错误,因为我在 Jupyter 中运行我的查询时内存不足,我只有 20 GB 的限制。这里有什么选择? Pandas 数据框是比较这个大型数据集的唯一方法吗?还是有任何其他库可以实现相同的目标?
【问题讨论】:
标签: python python-3.x pandas pandasql