【问题标题】:Compare two columns in two .csv files row by row with csv.DictReader使用 csv.DictReader 逐行比较两个 .csv 文件中的两列
【发布时间】:2019-09-02 15:51:47
【问题描述】:

我有两个大的 .csv 文件,我想使用csv DictReader 或什至pandas 逐行比较两列。

我需要检查两个文件中特定列的所有行是否相同。我在这里看到了一些建议,但没有一个适合我的情况。问题是第二个打开文件的迭代顺序不正确,即使文件相同。

我已经用openpyxl 快速完成了搜索和修改任务,但由于 csv 文件大小为数百 MB,即使在运行时将 csv 转换为 excel 似乎也不是一个好的决定。

这是我现在的代码:

import csv

class CsvCompareTester:

    work_csv_path = None
    test_csv_path = None

    @staticmethod
    def insert_file_paths():
        print()
        print('Enter the full absolute path of the WORK .csv file:')
        CsvCompareTester.work_csv_path = input()

        print('Enter the full absolute path of the TEST .csv file:')
        CsvCompareTester.test_csv_path = input()

    @staticmethod
    def compare_files(work_csv_file, test_csv_file):

        work_csv_obj = csv.DictReader(work_csv_file, delimiter=";")
        test_csv_obj = csv.DictReader(test_csv_file, delimiter=";")

        for work_row in work_csv_obj:
            for test_row in test_csv_obj:
                if work_row == test_row:
                    print('ALL CLEAR')
                    print(str(work_row))
                    print(str(test_row))
                    print()
                else:
                    print("STRINGS DON'T MATCH")
                    print(str(work_row))
                    print(str(test_row))
                    print()


if __name__ == "__main__":
    csv_tester = CsvCompareTester()
    csv_tester.insert_file_paths()

    with open(CsvCompareTester.work_csv_path) as work_file:
        with open(CsvCompareTester.test_csv_path) as test_file:
            csv_tester.compare_files(work_file, test_file)

我如何迭代 .csv 文件的行,同时还能够通过键或值来处理特定的行和列(这肯定可以减少无用迭代的数量)。 出于某种原因,在上面的代码中,第一个文件中的每个行字符串都不匹配第二个文件中的另一个。文件是相同的并且具有相同的条目顺序,我已经仔细检查过。 为什么第二个文件没有像第一个一样从头到尾迭代?

【问题讨论】:

    标签: python csv


    【解决方案1】:

    问题在于您循环文件的方式。按照您的方式,尝试将第一个文件的每一行与第二个文件的 每一 行进行比较。相反,您需要以锁步方式获取它们的行——一个很好的方法是使用内置的zip() 函数。

    所以改为这样做:

        @staticmethod
        def compare_files(work_csv_file, test_csv_file):
    
            work_csv_obj = csv.DictReader(work_csv_file, delimiter=";")
            test_csv_obj = csv.DictReader(test_csv_file, delimiter=";")
    
    #        for work_row in work_csv_obj:
    #            for test_row in test_csv_obj:
    
            for work_row, test_row in zip(work_csv_obj, test_csv_obj):
                if work_row == test_row:
                    print('ALL CLEAR')
                    print(str(work_row))
                    print(str(test_row))
                    print()
                else:
                    print("STRINGS DON'T MATCH")
                    print(str(work_row))
                    print(str(test_row))
                    print()
    

    顺便说一句,即使它可能还没有引起任何问题,我也注意到您没有正确打开这两个文件,如 csv.DictReader 文档中所示 - 您遗漏了 newline='' 参数。

    这是正确的做法:

    if __name__ == "__main__":
        csv_tester = CsvCompareTester()
        csv_tester.insert_file_paths()
    
    #    with open(CsvCompareTester.work_csv_path) as work_file:
    #        with open(CsvCompareTester.test_csv_path) as test_file:
    
        with open(CsvCompareTester.work_csv_path, newline='') as work_file:
            with open(CsvCompareTester.test_csv_path, newline='') as test_file:
                csv_tester.compare_files(work_file, test_file)
    

    【讨论】:

      猜你喜欢
      • 2021-04-27
      • 2014-08-24
      • 1970-01-01
      • 2015-12-02
      • 2018-04-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多