【发布时间】:2019-08-20 11:55:26
【问题描述】:
我想基本上匹配两个数据库的电子邮件字段,其中一个表将电子邮件作为电子邮件数组,而另一个表有一个字符串字段,每个表都有数十亿条记录。所以效率很重要。
我尝试过制作一个 python 脚本,但我认为使用我制作的脚本需要很长时间才能完成,它的时间复杂度为 O(n^2)。任何更好的python脚本都非常受欢迎。
如果有人能提出一种非常有用的方法。
【问题讨论】:
-
您可能需要用一些示例数据展示您的表结构以获得答案。明确的预期结果将有助于进一步。 :-)
标签: python hadoop hive dataset bigdata