优化最重要的事情是了解究竟是什么表现不佳。
然后你就可以看到可以优化什么了。
例如,如果读取和写入花费了 99% 的时间,那么优化数据处理就不值得了。
即使你可以将处理速度提高 10 倍,如果读写消耗 99%,你也只会获得 0.9%
我建议测量和比较一些版本并发布性能差异。
这可能会导致潜在的进一步优化建议。
在以下所有示例中,我将 writelines 替换为 write,因为 writelines 可能会在写入之前逐个字符地分解您的行。
无论如何。您想使用 write
你应该已经获得了大约 5 的加速。
1.) 只是阅读和写作
with open(corpus_in,"rt") as corpus_input, open(corpus_out,"wt")
as corpus_out:
for line in corpus_input:
corpus_out.write(line)
2.) 只是阅读和写作
缓冲区更大
import io
BUF_SIZE = 50 * io.DEFAULT_BUFFER_SIZE # try other buffer sizes if you see an impact
with open(corpus_in,"rt", BUF_SIZE) as corpus_input, open(corpus_out,"wt", BUF_SIZE)
as corpus_out:
for line in corpus_input:
corpus_out.write(line)
对我来说,这可以提高几个百分点的性能
3.) 将搜索正则表达式和替换生成移出循环。
rules = []
for word in dict_keys:
rules.append((re.compile(fr'\b{word}\b'), word + "_lorem_ipsum"))
for line in corpus_input:
for regexp, new_word in rules:
line = regexp.sub(new_word, line)
corpus_out.write(line)
在我的机器上,我的行频率包含单词,这个解决方案实际上比具有if word in line 行的解决方案慢
所以也许试试:
3.a) 将搜索正则表达式和替换生成移出循环。
rules = []
for word in dict_keys:
rules.append((word, re.compile(fr'\b{word}\b'), word + "_lorem_ipsum"))
for line in corpus_input:
for word, regexp, new_word in rules:
if word in line:
line = regexp.sub(new_word, line)
corpus_out.write(line)
3.b) 如果所有替换字符串都比初始字符串长,那么这会快一点。
rules = []
for word in dict_keys:
rules.append((word, re.compile(fr'\b{word}\b'), word + "_lorem_ipsum"))
for line in corpus_input:
temp_line = line
for word, regexp, new_word in rules:
if word in line:
temp_line = regexp.sub(new_word, temp_line)
corpus_out.write(temp_line)
4.) 如果您真的将 always 替换为 word + "_lorem_ipsum",请将正则表达式合二为一。
regexp = re.compile(fr'\b({"|".join(dict_keys)})\b')
for line in corpus_input:
line = regexp.sub("\1_lorem_ipsum", line)
corpus_out.write(line)
4.a) 根据单词分布,这可能会更快:
regexp = re.compile(fr'\b({"|".join(dict_keys)})\b')
for line in corpus_input:
if any(word in line for word in dict_keys):
line = regexp.sub("\1_lorem_ipsum", line)
corpus_out.write(line)
这是否更有效可能取决于要搜索和替换的单词数量以及这些单词的频率。
我没有那个日期。
对于 5 个单词,我的分发速度比 3.a 慢
5) 如果要替换的单词不同,您仍然可以尝试组合正则表达式并使用函数替换
replace_table = {
"word1": "word1_laram_apsam",
"word2": "word2_lerem_epsem",
"word3": "word3_lorom_opsom",
}
def repl(match):
return replace_table[match.group(1)]
regexp = re.compile(fr'\b({"|".join(dict_keys)})\b')
for line in corpus_input:
line = regexp.sub(repl, line)
corpus_out.write(line)
慢于 5,是否优于 3.a 取决于字数和线分布/频率。