【发布时间】:2014-05-12 21:30:55
【问题描述】:
在一个巨大的文本文件中,出于效率原因,我将其作为大字符串处理(我不逐行读取文件),我想删除 -swf 之后和 || 之前的任何字符
我有一个大文本,如下所示:
bla bla bla ||NULL||abc-swf||NULL||NULL
bla bla bla ||NULL||cdacda-swfend%23wrapclass||NULL||NULL
bla bla bla ||NULL||bgdbgdbgd-swf%28ML%29endBeliefnet.Web.UI.S||NULL||NULL
我希望最终结果如下所示:
bla bla bla ||NULL||abc-swf||NULL||NULL
bla bla bla ||NULL||cdacda-swf||NULL||NULL
bla bla bla ||NULL||bgdbgdbgd-swf||NULL||NULL
我可以使用 python 中的分区函数逐行执行此操作,但需要大量时间,因为它需要逐行处理文件并且文件有超过 10M 行。有没有办法不逐行检查文件来做到这一点?
【问题讨论】:
-
您的问题与题名无关。我建议重写它以使用正则表达式替换大文本文件中的文本。
标签: python regex replace match