【发布时间】:2012-03-28 10:45:17
【问题描述】:
我遇到了一个问题,我没有看到任何人在 StackOverflow 上遇到过,甚至没有在谷歌上看到过。
我的主要目标是能够用另一个字符串替换文件中出现的字符串。有没有办法可以访问文件中的所有行。
问题是当我尝试读取一个大文本文件(1-2 gb)的文本时,python 只读取它的一个子集。
例如,我将执行一个非常简单的命令,例如:
newfile = open("newfile.txt","w")
f = open("filename.txt","r")
for line in f:
replaced = line.replace("string1", "string2")
newfile.write(replaced)
它只写入原始文件的前 382 mb。以前有人遇到过这个问题吗?
我尝试了几种不同的解决方案,例如使用:
import fileinput
for i, line in enumerate(fileinput.input("filename.txt", inplace=1)
sys.stdout.write(line.replace("string1", "string2")
但它具有相同的效果。也不会分块读取文件,例如使用
f.read(10000)
我已将其范围缩小到很可能是读取问题而不是写入问题,因为它发生在简单地打印行时。我知道还有更多的行。当我在Vim等全文编辑器中打开时,我可以看到最后一行应该是什么,而不是python打印的最后一行。
任何人都可以提供任何建议或尝试吗?
我目前使用的是 32 位版本的 Windows XP,内存为 3.25 GB,运行 Python 2.7
*找到编辑解决方案(感谢 Lattyware)。使用迭代器
def read_in_chunks(file, chunk_size=1000):
while True:
data = file.read(chunk_size)
if not data: break
yield data
【问题讨论】:
-
使用迭代器逐行读取应该是一种惰性操作,因此无论文件大小如何,它都应该工作。虽然它不应该影响您的情况,但您还需要在打开文件时使用
with- 这是一个很好的做法,而不是在异常情况下正确处理关闭。 -
效果很好!非常感谢。 *编辑:我尝试在这里发布迭代器代码,但它不会格式化,所以我将它添加到原始帖子中。
-
您是否尝试过使用不同的大文本文件?文件 382mb 中有什么奇怪的地方 - 一些奇怪的字符被视为文件的结尾?
-
我有。起初我以为它可能是该文件,但我尝试使用来自各种来源的不同大小的文件。我试过的大的是 2.6 GB,我试过的最小的是 560 mb,但它们都停在 382 mb。
-
您的原始代码没有理由不工作。正如@Latty 所说,它也是“懒惰的”。您不需要编写自己的迭代器或分块读取。
标签: python text filesize file-io