【问题标题】:Python comparing millions of rows and hundreds of columns between two tables from relational DBPython比较关系数据库中两个表之间的数百万行和数百列
【发布时间】:2019-05-14 19:45:23
【问题描述】:

目前我们的系统处于现场验证阶段。因此,我们需要检查生产中填充的表集是否与沙盒(测试)中填充的表匹配。目前我们已经为每个表比较编写了一个查询,然后在 sql 客户端中运行它来检查它。将来会有更多的表要检查。我想通过将表名提供给一个函数来在 python 中自动化该过程,然后该函数可以将两个表加载到数据框中,然后进行比较以突出差异。

有些表一天有 270 万行,宽有 400 列。当我尝试将数据(2.7 m 行 * 400 列)加载到数据框中时,我收到一个错误,因为我在 Jupyter 中运行我的查询时内存不足,我只有 20 GB 的限制。这里有什么选择? Pandas 数据框是比较这个大型数据集的唯一方法吗?还是有任何其他库可以实现相同的目标?

【问题讨论】:

    标签: python python-3.x pandas pandasql


    【解决方案1】:

    为了处理这种数据,我建议使用 Hadoop 而不是 pandas/python。这不是一个很好的答案,但我还不能发表评论。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-12-21
      • 1970-01-01
      • 2012-03-15
      • 2019-10-30
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-01-14
      相关资源
      最近更新 更多