替换大文本文件中的一组单词答案

【问题标题】：Replacing a set of words in a large text file替换大文本文件中的一组单词
【发布时间】：2020-05-26 00:41:48
【问题描述】：

我有一个大的 txt 文件（大约 20GB）我想替换这个大文件中单词列表的所有实例。我正在努力寻找优化此代码的方法。这导致我处理这个文件很长时间。

我可以改进什么？

    corpus_input =  open(corpus_in,"rt")
    corpus_out = open(corpus_out,"wt")
    for line in corpus_input:
        temp_str=line
        for word in dict_keys:
            if word in line:
                new_word = word+"_lauren_ipsum"
                temp_str = re.sub(fr'\b{word}\b',new_word,temp_str)

            else:
                continue
        
        corpus_out.writelines(temp_str)

     corpus_input.close()
     corpus_out.close()

【问题讨论】：

请在您的问题中添加以下信息。 dict_keys 中大约有多少个单词？一个单词在一行中出现的频率大概是多少？每50行/每10行每行？
只是出于好奇。经过所有修改后，您的解决方案能快多少？

标签： python optimization nlp bigdata

【解决方案1】：

优化最重要的事情是了解究竟是什么表现不佳。然后你就可以看到可以优化什么了。

例如，如果读取和写入花费了 99% 的时间，那么优化数据处理就不值得了。即使你可以将处理速度提高 10 倍，如果读写消耗 99%，你也只会获得 0.9%

我建议测量和比较一些版本并发布性能差异。这可能会导致潜在的进一步优化建议。

在以下所有示例中，我将 writelines 替换为 write，因为 writelines 可能会在写入之前逐个字符地分解您的行。

无论如何。您想使用 write 你应该已经获得了大约 5 的加速。

1.) 只是阅读和写作

with open(corpus_in,"rt") as corpus_input, open(corpus_out,"wt")
 as corpus_out:
   for line in corpus_input:
       corpus_out.write(line)

2.) 只是阅读和写作缓冲区更大

import io

BUF_SIZE = 50 * io.DEFAULT_BUFFER_SIZE # try other buffer sizes if you see an impact
with open(corpus_in,"rt", BUF_SIZE) as corpus_input, open(corpus_out,"wt", BUF_SIZE)
 as corpus_out:
   for line in corpus_input:
corpus_out.write(line)

对我来说，这可以提高几个百分点的性能

3.) 将搜索正则表达式和替换生成移出循环。

   rules = []
   for word in dict_keys:
       rules.append((re.compile(fr'\b{word}\b'), word + "_lorem_ipsum"))

   for line in corpus_input:
       for regexp, new_word in rules: 
           line = regexp.sub(new_word, line)
       corpus_out.write(line)

在我的机器上，我的行频率包含单词，这个解决方案实际上比具有if word in line 行的解决方案慢

所以也许试试： 3.a) 将搜索正则表达式和替换生成移出循环。

   rules = []
   for word in dict_keys:
       rules.append((word, re.compile(fr'\b{word}\b'), word + "_lorem_ipsum"))

   for line in corpus_input:
       for word, regexp, new_word in rules: 
           if word in line:
               line = regexp.sub(new_word, line)
       corpus_out.write(line)

3.b) 如果所有替换字符串都比初始字符串长，那么这会快一点。

   rules = []
   for word in dict_keys:
       rules.append((word, re.compile(fr'\b{word}\b'), word + "_lorem_ipsum"))

   for line in corpus_input:
       temp_line = line
       for word, regexp, new_word in rules: 
           if word in line:
               temp_line = regexp.sub(new_word, temp_line)
       corpus_out.write(temp_line)

4.) 如果您真的将 always 替换为 word + "_lorem_ipsum"，请将正则表达式合二为一。

   regexp = re.compile(fr'\b({"|".join(dict_keys)})\b')

   for line in corpus_input:
       line = regexp.sub("\1_lorem_ipsum", line)
       corpus_out.write(line)

4.a) 根据单词分布，这可能会更快：

   regexp = re.compile(fr'\b({"|".join(dict_keys)})\b')

   for line in corpus_input:
       if any(word in line for word in dict_keys):
           line = regexp.sub("\1_lorem_ipsum", line)
       corpus_out.write(line)

这是否更有效可能取决于要搜索和替换的单词数量以及这些单词的频率。我没有那个日期。

对于 5 个单词，我的分发速度比 3.a 慢

5) 如果要替换的单词不同，您仍然可以尝试组合正则表达式并使用函数替换

   replace_table = {
      "word1": "word1_laram_apsam",
      "word2": "word2_lerem_epsem",
      "word3": "word3_lorom_opsom",

   }

   def repl(match):
      return replace_table[match.group(1)]

   regexp = re.compile(fr'\b({"|".join(dict_keys)})\b')

   for line in corpus_input:
       line = regexp.sub(repl, line)
       corpus_out.write(line)

慢于 5，是否优于 3.a 取决于字数和线分布/频率。

【讨论】：

请不要我在一分钟前稍微增强了我的答案。其中一个问题可能是，您使用 writelines 而不是 write
我做了一些初步测试。不知道数据，要查找的字数。单词的频率使得很难知道可以优化什么。没有更多信息 3.a 似乎是最好的解决方案（至少对于我的数据而言）
添加 4.b 场景（可能比 3.a 或 3.b 更快）
所以我运行了一个代码配置文件，写入文件是我代码中最费力的功能。
好的，您可以在问题中添加此信息和百分比。请在我的回答中看到，我用corpus_out.write() 替换了corpus_out.writelines()，这至少在我的机器上带来了相当大的性能提升（> 5 倍）增加缓冲区大小也将性能提高了几个百分点。使用建议 3b，您还可以通过准备正则表达式和如果循环替换掉的单词来提高性能