在列值上匹配两个 CSV 文件的快速方法答案

【问题标题】：Fast method for matching two CSV's files on column value在列值上匹配两个 CSV 文件的快速方法
【发布时间】：2018-01-12 08:11:37
【问题描述】：

我有两个 csv，其中的行可以与一列中的值匹配（在对该列进行一些调整之后）。匹配后，我想从它们中获取一些值并创建一个新的组合行。

我想到了一个使用 csv.DictReader 的简单脚本，然后是双 for 循环：

for row1 in csv1:
    for row2 in csv2:
        if row1['someID'] == row2['someID]:
            newdict = ... etc

但是，一个文件是 900 万行，另一个是 500k 行。所以我的代码需要 4.5 * 10^12 次迭代。因此我的问题是：匹配它们的快速方法是什么？

重要：

【问题讨论】：

【解决方案1】：

解决方案确实是 pandas 和 pd.merge。将 500k 与 900 万匹配对 pandas 来说只需几秒钟 :O 感谢 cmets

【讨论】：