读取换行符分隔文件并丢弃换行符的最佳方法？答案

【问题标题】：Best method for reading newline delimited files and discarding the newlines?读取换行符分隔文件并丢弃换行符的最佳方法？
【发布时间】：2010-10-07 09:25:05
【问题描述】：

我正在尝试确定在 Python 中读取换行符分隔文件时处理删除换行符的最佳方法。

我想出的是以下代码，包括要测试的一次性代码。

import os

def getfile(filename,results):
   f = open(filename)
   filecontents = f.readlines()
   for line in filecontents:
     foo = line.strip('\n')
     results.append(foo)
   return results

blahblah = []

getfile('/tmp/foo',blahblah)

for x in blahblah:
    print x

【问题讨论】：

使用 split("/n") 怎么样？
同：stackoverflow.com/questions/339537/…
我认为最好也关闭文件
这能回答你的问题吗？ How to read a file without newlines?

标签： python file readline

【解决方案1】：

lines = open(filename).read().splitlines()

【讨论】：

这个答案符合我的要求，我确定我需要添加一些错误检查等，但对于这个特定的需求，它很棒。谢谢大家提供答案！
我喜欢这个，但是如果你不保存文件句柄，你如何关闭文件？还是自动关闭？
使用 CPython，文件对象的引用计数将在不再使用时归零，并且文件将自动关闭。对于像 Jython 和 IronPython 这样的纯 GC 实现，在 GC 运行之前文件可能不会关闭——因此这种简洁的变化可能不是最佳的。
在具有 8GB RAM 的 Mac OS X 10.7.5 上，我可以读取高达 2047MB 的文件（我的定义：1 MB = 1024 x 1024 字节）。 2048MB 会抛出 MemoryError 异常。
@WKPlus 很好的问题——答案是“它取决于”stackoverflow.com/a/15099341/994153（CPython 将关闭它，因为引用计数降至零，但其他 Python 实现可能不会关闭它，所以最好让它明确）

【解决方案2】：

这是一个满足您要求的生成器。在这种情况下，使用 rstrip 就足够了，而且比 strip 稍快。

lines = (line.rstrip('\n') for line in open(filename))

但是，您很可能也希望使用它来消除尾随空格。

lines = (line.rstrip() for line in open(filename))

【讨论】：

RHS 周围不应该是 []，而不是 ()？
@andrewb 使用 () 提供了一个生成器表达式，它使用的内存不如使用 [] （列表推导式）。

【解决方案3】：

您如何看待这种方法？

with open(filename) as data:
    datalines = (line.rstrip('\r\n') for line in data)
    for line in datalines:
        ...do something awesome...

生成器表达式避免将整个文件加载到内存中，with 确保关闭文件

【讨论】：

这与@TimoLinna 的answer 几年前发布的基本相同......

【解决方案4】：

for line in file('/tmp/foo'):
    print line.strip('\n')

【讨论】：

【解决方案5】：

只需使用生成器表达式：

blahblah = (l.rstrip() for l in open(filename))
for x in blahblah:
    print x

另外我想建议你不要在内存中读取整个文件——循环生成器在大数据集上效率更高。

【讨论】：

【解决方案6】：

我用这个

def cleaned( aFile ):
    for line in aFile:
        yield line.strip()

然后我可以做这样的事情。

lines = list( cleaned( open("file","r") ) )

或者，我可以使用额外的功能扩展清理功能，例如，删除空白行或跳过注释行等。

【讨论】：

【解决方案7】：

我会这样做：

f = open('test.txt')
l = [l for l in f.readlines() if l.strip()]
f.close()
print l

【讨论】：

虽然 Curt Hagenlocher 的答案在技术上更好，但如果您需要向每一行添加其他处理，则此答案是一个很好的起点。
不确定它是否旨在过滤空白行，但这比... if l.strip() is not '' 更简洁，这正是我所需要的。