【问题标题】:Pass file handle to cython function将文件句柄传递给 cython 函数
【发布时间】:2013-03-12 08:39:56
【问题描述】:

我想用 cython 编译一个 python 函数,用于读取跳过一些记录的二进制文件(不读取整个文件然后切片,因为我会用完内存)。我可以想出这样的东西:

    def FromFileSkip(fid, count=1, skip=0):            
        if skip>=0:
            data = numpy.zeros(count)
            k = 0
            while k<count:
                try:
                    data[k] = numpy.fromfile(fid, count=1, dtype=dtype)
                    fid.seek(skip, 1)
                    k +=1
                except ValueError:
                    data = data[:k]
                    break
            return data

然后我可以像这样使用函数:

 f = open(filename)
 data = FromFileSkip(f,...

但是,为了使用 cython 编译函数“FromFileSkip”,我想定义函数中涉及的所有类型,所以“fid”以及文件处理程序。我如何在 cython 中定义它的类型,因为它不是“标准”类型,例如一个整数。 谢谢。

【问题讨论】:

  • 为什么键入该变量很重要?因为它是一个 python 对象,所以你不会获得任何加速。
  • 如果要将其分配给类变量,请使用object 类型。
  • 所以键入文件句柄不会有太大变化?我认为与只输入其中一些变量相比,毫无例外地输入所有变量可以提高性能。
  • 你应该避免在循环中调用 numpy.fromfile ,因为它是一个 python 函数,它很可能会成为你所有工作的瓶颈。考虑使用低级 C stdio 方法来提高速度。一些例子在这里:groups.google.com/forum/?fromgroups=#!topic/cython-users/…
  • 文件句柄的类型为file,它是一个内置的。我不知道这是否会对cython有所帮助。由于它是用 C 实现的类型,它可能能够避免通过解释器来调用它的方法。也就是说,文档似乎暗示 cython 并没有真正为任何非原始类型做任何特别的事情。

标签: python function cython filehandle


【解决方案1】:

定义fid 的类型无济于事,因为调用python 函数仍然很昂贵。尝试使用“-a”标志编译您的示例以了解我的意思。但是,您可以使用低级 C 函数进行文件处理,以避免循环中的 python 开销。为了举例,我假设数据从文件的开头开始,它的类型是double

from libc.stdio cimport *                                                                

cdef extern from "stdio.h":
    FILE *fdopen(int, const char *)

import numpy as np
cimport numpy as np

DTYPE = np.double # or whatever your type is
ctypedef np.double_t DTYPE_t # or whatever your type is

def FromFileSkip(fid, int count=1, int skip=0):
    cdef int k
    cdef FILE* cfile
    cdef np.ndarray[DTYPE_t, ndim=1] data
    cdef DTYPE_t* data_ptr

    cfile = fdopen(fid.fileno(), 'rb') # attach the stream
    data = np.zeros(count).astype(DTYPE)
    data_ptr = <DTYPE_t*>data.data

    # maybe skip some header bytes here
    # ...

    for k in range(count):
        if fread(<void*>(data_ptr + k), sizeof(DTYPE_t), 1, cfile) < 0:
            break
        if fseek(cfile, skip, SEEK_CUR):
            break

    return data

请注意,cython -a example.pyx 的输出显示循环内没有 python 开销。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2013-06-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-01-07
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多