【发布时间】:2018-04-26 00:46:39
【问题描述】:
我正在比较一堆 fastq.gz 文件。每个文件约为 4G:
if filecmp.cmp(f1,f2,shallow=False)
它返回 false,因为 f1 和 f2 不同。但是当我使用 diff/comm 比较文件时,我得到 0 输出(我解压缩然后比较)。我尝试了 shallow=True 和 False。 我正在尝试打印差异,但内存不足。
diff=difflib.ndiff((gzip.open(f1)).readlines(),(gzip.open(f2)).readlines())
print [i for i in diff if i.startswith('+')]
是因为文件被压缩了吗?关于如何在不解压缩它们的情况下比较它们的任何想法? (每个文件200M行)
谢谢!
【问题讨论】:
标签: python gzip fastq cmp file-comparison