使用python分割大文件答案

【问题标题】：Split large files using python使用python分割大文件
【发布时间】：2011-11-11 15:58:50
【问题描述】：

我在尝试拆分大文件（例如，大约 10GB）时遇到了一些麻烦。基本思想是简单地读取行，并将每行（例如 40000 行）分组到一个文件中。但是有两种“读取”文件的方式。

1) 第一个是一次读取整个文件，并把它变成一个列表。但这需要将整个文件加载到内存中，这对于太大的文件来说是很痛苦的。（我想我以前问过这样的问题）在 python 中，我尝试过的一次读取整个文件的方法包括：

input1=f.readlines()

input1 = commands.getoutput('zcat ' + file).splitlines(True)

input1 = subprocess.Popen(["cat",file],
                              stdout=subprocess.PIPE,bufsize=1)

那么，我可以很容易地将 40000 行分组到一个文件中：list[40000,80000] or list[80000,120000] 或者使用列表的好处是我们可以很容易地指向特定的行。

2)第二种方式是逐行读取；读取时处理该行。那些读取的行不会保存在内存中。示例包括：

f=gzip.open(file)
for line in f: blablabla...

或

for line in fileinput.FileInput(fileName):

我确定对于 gzip.open，这个 f 不是一个列表，而是一个文件对象。似乎我们只能逐行处理；那么我该如何执行这个“拆分”工作呢？如何指向文件对象的特定行？

谢谢

【问题讨论】：

当你想到它时..你不能。只有在您阅读了所有前面的行并计算了换行符 (\n) 之后，您才能知道您在哪一行。（忽略特殊情况，这是一个奇怪的文件，其中每一行的长度都是已知的。）

标签： python split

【解决方案1】：

NUM_OF_LINES=40000
filename = 'myinput.txt'
with open(filename) as fin:
    fout = open("output0.txt","wb")
    for i,line in enumerate(fin):
      fout.write(line)
      if (i+1)%NUM_OF_LINES == 0:
        fout.close()
        fout = open("output%d.txt"%(i/NUM_OF_LINES+1),"wb")

    fout.close()

【讨论】：

如果你想要文件中正好有 40,000 行，我认为你应该将 i 初始化为 0，而不是 1。
你需要什么包？
@LuisFelipe 不需要外部包，fileinput 是一个内置包，甚至不需要此功能，您也可以使用普通的open()
我尝试了相同的代码，它说“名称'文件名'未定义”
@LuisFelipe filename 是一个变量，应该包含输入文件的路径

【解决方案2】：

如果每个文件中有特定数量的文件行没有什么特别之处，readlines() function 还接受一个大小“提示”参数，其行为如下：

如果给定一个可选参数 sizehint，它会从文件和足够多的内容来完成一行，并返回这些行从此。这通常用于允许有效读取大逐行文件，但不必将整个文件加载到内存中。只会返回完整的行。

...所以你可以这样写代码：

# assume that an average line is about 80 chars long, and that we want about 
# 40K in each file.

SIZE_HINT = 80 * 40000

fileNumber = 0
with open("inputFile.txt", "rt") as f:
   while True:
      buf = f.readlines(SIZE_HINT)
      if not buf:
         # we've read the entire file in, so we're done.
         break
      outFile = open("outFile%d.txt" % fileNumber, "wt")
      outFile.write(buf)
      outFile.close()
      fileNumber += 1

【讨论】：

-1 (1) 您没有显式关闭输出文件 (2) 以文本模式读取并以二进制模式写入保证“如果我们在 Windows 上则可以修改”

【解决方案3】：

对于 10GB 的文件，第二种方法显然是可行的方法。以下是您需要做的概要：

打开输入文件。
打开第一个输出文件。
从输入文件中读取一行并将其写入输出文件。
记录您已写入当前输出文件的行数；一旦达到 40000，关闭输出文件，然后打开下一个。
重复步骤 3-4，直到到达输入文件的末尾。
关闭这两个文件。

【讨论】：

if num_lines % 4000 == 0: avoid_writing_empty_file_at_end() # except when numlines == 0

【解决方案4】：

chunk_size = 40000
fout = None
for (i, line) in enumerate(fileinput.FileInput(filename)):
    if i % chunk_size == 0:
        if fout: fout.close()
        fout = open('output%d.txt' % (i/chunk_size), 'w')
    fout.write(line)
fout.close()

【讨论】：

退出循环后需要做if fout: fout.close()

【解决方案5】：

我发现的最佳解决方案是使用库文件拆分 (https://pypi.org/project/filesplit/)。
您只需指定输入文件、输出文件夹和输出文件所需的字节大小。最后，图书馆将为您完成所有工作。

from fsplit.filesplit import Filesplit
fs = Filesplit()
def split_cb(f, s):
    print("file: {0}, size: {1}".format(f, s))

fs.split(file="/path/to/source/file", split_size=900000, output_dir="/pathto/output/dir", callback=split_cb)

【讨论】：

【解决方案6】：

显然，当您对文件进行处理时，您需要以某种方式迭代文件的内容——无论是手动执行还是让 Python API 的一部分为您执行（例如 readlines () 方法) 并不重要。在大 O 分析中，这意味着您将花费 O(n) 时间（n 是文件的大小）。

但是将文件读入内存也需要 O(n) 空间。尽管有时我们确实需要将 10 gb 文件读入内存，但您的特定问题不需要这样做。我们可以直接遍历文件对象。当然，文件对象确实需要空间，但我们没有理由将文件内容以两种不同的形式保存两次。

因此，我会选择您的第二个解决方案。

【讨论】：