【发布时间】:2018-11-19 14:21:02
【问题描述】:
我正在尝试使用 python 删除 file1.csv 中包含 file2.csv 中的字符串的所有行。我希望它搜索 file1.csv 的 column1 中的所有值,并删除 column1 在其值中包含与 file2.csv 中相同的字符串的整行。
我知道 bash 中的 grep -v 只需一个命令即可完成相同的操作。但是,我需要针对 file2.csv 中的 40,000 多个可能的字符串 抑制 file1.csv。执行此命令时,Bash 需要很长时间,甚至崩溃。
有没有人知道一个可靠的脚本,它可以做 grep -v 在 python 中所做的事情,但在抑制包含数千个字符串的文件时?
只是为了确保清楚:
文件1.csv:
column1,column2,column3
www.gamai4xheifw.com,4410,22
www.vfekjfwo11k.com,772,100
www.gosi4xnbdn.com,1793,39
www.tum33kkwfl.com,1100,2
www.eei4xelwf.com,9982,14
文件2.csv:
column1
i4x
文件3.csv:
column1,column2,column3
www.vfekjfwo11k.com,772,100
www.tum33kkwfl.com,1100,2
但是,再次,我在 python 中需要它,因为 file2.csv 中的字符串数超过 40,000。
【问题讨论】:
-
所以我知道 file1 中的每一行都将与 file2 中的 40000 个字符串进行比较?
标签: python csv suppression