【发布时间】:2019-04-04 21:15:19
【问题描述】:
我想从 Python 中的文本文件中获取每一行(大约 10 亿行),并从每一行中获取一些单词并插入另一个文件 我用过
with open('') as f:
for line in f:
process_line(line)
这个过程需要很多时间,我怎样才能在大约 2 小时内阅读所有内容?
【问题讨论】:
-
process_line实际上是做什么的?请向我们展示代码。 -
它不完全是 process_lines。每行由 "word,word1,word2" 组成,我正在拆分这三个单词 (.split(",")) 并使用 f.write() 将它们写入 3 个单独的文件
-
如果处理每一行是独立的,这个问题可以建模为分而治之。首先使用 Linux split 命令将大文件拆分为较小的文件。稍后,在拆分文件上运行相同的程序,最好是并行运行。
标签: python python-3.x file