【问题标题】:How to compare two columns from one datatable with two other column in another datatable..?如何将一个数据表中的两列与另一个数据表中的另外两列进行比较..?
【发布时间】:2017-07-07 18:39:27
【问题描述】:

我现在在一个处理大数据的项目中工作。我们从客户那里获得大量数据,比如大约 600 万个数据,我们对其进行处理以对齐它们并填充空白空间并将其作为最终结果生成。

但是有必要检查我们在此过程中没有丢失任何数据或混淆数据。

所以故事就像在数据表中说表 1 我有两列 命名部分和客户端。我想与处理后的进行比较 数据表说表 2 的列 newpart 和 new clients。这里 数据不是必须按相同顺序排列的,表 2 也是如此 将添加其他列。

这里的问题是如何将这 600 万个数据进行比较以达到最高准确度?是否有任何开源工具可以做到这一点。 ?任何参考视频或日记?

【问题讨论】:

    标签: javascript mysql sql datatable bigdata


    【解决方案1】:

    我希望partclient 的组合在每个表中都是唯一的?我还假设您在每个表的 (part, client) 上都有一个我们的唯一索引。

    CREATE TEMPORARY TABLE t ( PRIMARY KEY(part, client) )
        SELECT part, client FROM table1;
    INSERT INTO t
        SELECT part, client FROM table2;
    

    您现在拥有两个表中所有部分客户端对的列表。

    这将找到 table1 中缺少的那些:

    SELECT part, client
        FROM t
        LEFT JOIN table1  USING(part, client)
        WHERE part IS NULL
    

    这有变种,但可能的关键是LEFT JOIN ... IS NULL

    【讨论】:

    • 谢谢瑞克。这会很有帮助。我会试试看。由于我们正在通过黑盒测试思维来查看它,我认为帮助检查这些数据的工具将减少工作量。无论如何,我真的很感谢你帮助我。
    • 查看 Percona 工具包——它可能包含对您有帮助的实用程序。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-03-14
    • 1970-01-01
    • 1970-01-01
    • 2017-09-05
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多