【问题标题】:Output data from subprocess command line by line从子进程命令行逐行输出数据
【发布时间】:2019-08-23 21:53:04
【问题描述】:

我正在尝试使用预先构建的(C 语言)例程读取大型数据文件(= 数百万行,采用非常特定的格式)。然后我想通过生成器函数逐行生成结果。

我可以正常读取文件,但只是在运行:

<command> <filename>

直接在 linux 中将在找到结果时逐行打印结果,我没有运气尝试在我的生成器函数中复制它。它似乎将整个批次输出为我需要在换行符上拆分的单个字符串,当然,在我可以产生第 1 行之前,所有内容都需要阅读。

这段代码会读取文件,没问题:

import subprocess
import config

file_cmd = '<command> <filename>'

for rec in (subprocess.check_output([file_cmd], shell=True).decode(config.ENCODING).split('\n')):
    yield rec

(在 config.py 中将 ENCODING 设置为 iso-8859-1 - 这是一个瑞典站点)

我的代码有效,因为它为我提供了数据,但这样做,它试图将全部内容保存在内存中。我有比这更大的文件要处理,这些文件可能会耗尽可用内存,所以这不是一个选择。

我在 Popen 上玩过 bufsize,但没有任何成功(而且,我无法在 Popen 之后解码或拆分,尽管我想我现在需要拆分的事实实际上是我的问题!) .

【问题讨论】:

    标签: python-3.x subprocess buffering


    【解决方案1】:

    我想我现在有这个工作,所以如果其他人稍后正在寻找这个,我会回答我自己的问题......

    proc = subprocess.Popen(shlex.split(file_cmd), stdout=subprocess.PIPE)
    while True:
        output = proc.stdout.readline()
    
        if output == b'' and proc.poll() is not None:
            break
        if output:
            yield output.decode(config.ENCODING).strip()
    

    【讨论】:

      猜你喜欢
      • 2020-03-12
      • 1970-01-01
      • 2011-02-17
      • 2011-11-28
      • 1970-01-01
      • 1970-01-01
      • 2015-06-25
      相关资源
      最近更新 更多