【发布时间】:2019-12-04 22:11:40
【问题描述】:
我正在尝试在非常大的文本文件中查找一些拼写错误并进行更正。基本上,我运行这段代码:
ocr = open("text.txt")
text = ocr.readlines()
clean_text = []
for line in text:
last = re.sub("^(\\|)([0-9])(\\s)([A-Z][a-z]+[a-z])\\,", "1\\2\t\\3\\4,", line)
clean_text.append(last)
new_text = open("new_text.txt", "w", newline="\n")
for line in clean_text:
new_text.write(line)
new_text.close()
实际上我使用 're.sub' 函数超过 1500 次,而 'text.txt' 有 100.000 行。 我可以将我的文本分成几部分,并为不同的部分使用不同的核心吗?
【问题讨论】:
-
我不知道python是如何处理re的,但一般来说最好调用re.compile()一次,re.execute()重复调用。
标签: python python-3.x text parallel-processing