【问题标题】:Loading vs linking in Cython modules在 Cython 模块中加载与链接
【发布时间】:2019-09-29 13:37:50
【问题描述】:

在探索 Cython 编译步骤时,我发现我需要在 setup.py 中显式链接诸如 math 之类的 C 库。但是,numpy 不需要这样的步骤。为什么这样? numpy 是通过通常的 python 导入机制导入的吗?如果是这种情况,我们不需要在 Cython 中显式链接 any 扩展模块吗?

我试图翻阅官方文档,但遗憾的是没有解释何时需要显式链接以及何时会自动处理。

【问题讨论】:

    标签: python cython


    【解决方案1】:

    cdef-函数的调用或多或少对应于跳转到内存中的地址——应该从中读取/执行命令的地址。问题是如何提供这个地址。有一些情况我们需要考虑:

    A.内联函数

    这些函数的代码要么是内联的,要么函数的定义在同一个翻译单元中,因此链接器在链接时(甚至编译器在编译时)知道地址 - 无需额外图书馆。

    一个例子是只有头文件的库。

    后果:只应在setup.py 中提供包含路径。

    B.静态链接

    我们需要的定义/功能在另一个翻译单元/库中 - 跳转的目标地址是在链接时计算的,之后不能再更改。

    一个例子是添加到扩展定义的附加 c/cpp 文件或静态库。

    后果:静态库应添加到setup.py,即库路径和库名称以及包含路径。

    C.动态链接

    在共享对象/dll 中提供了必要的功能。要跳转的地址是在运行时从加载器计算出来的,可以在程序启动时通过交换加载的共享对象来替换。

    例如 stdlibc++(通常由 g++ 自动添加)或 libm,它们不是由 gcc 自动添加到链接器命令的。

    后果: 动态库应该添加到setup.py,即库路径和库名称,可能是 r-path + 包含路径。共享对象/dll 必须在运行时提供。更多(可能不止一个人想知道)关于使用动态库的 Cython/Python 的信息可以在 SO-post 中找到。

    D.通过指针调用

    只有当我们通过函数名调用函数时才需要链接器。如果我们通过函数指针调用它,我们不需要链接器/加载器,因为函数的地址是已知的——函数指针中的值。

    示例:Cython 生成的模块使用此机制来启用对其通过pxd-file 导出的 cdef 函数的访问。它创建函数指针的数据结构(在模块本身中存储为变量__pyx_capi__),一旦通过ldopen(或任何Windows 等效项)加载so/dll,加载器就会填充该数据结构。字典中的查找只在模块加载和函数地址被缓存时发生一次,因此运行时的调用几乎没有开销。

    我们可以检查它,例如通过

    #foo.pyx:
    cdef void doit():
        print("doit")
    #foo.pxd
    cdef void doit()
    
    >>> cythonize -3 -i foo.pyx
    >>> python -c "import foo; print(foo.__pyx_capi__)" 
    {'doit': <capsule object "void (void)" at 0x7f7b10bb16c0>}
    

    现在,从另一个模块调用cdef 函数只是跳转到相应的地址。

    后果:我们需要导入所需的功能。


    Numpy 稍微复杂一点,因为它使用了 AD 的复杂组合,以便将符号的解析推迟到运行时,因此不需要链接时的共享对象/dll(但在运行时!)。

    numpy-pxd 文件中的某些功能可以直接使用,因为它们是内联的(甚至只是定义),例如PyArray_NDIM,基本上所有来自ndarraytypes.h。这就是人们可以毫不费力地使用 cython 的 ndarray 的原因。

    如果不在初始化步骤中调用np.import_array(),则无法访问其他功能(基本上来自ndarrayobject.h),例如PyArray_FromAny。为什么?

    答案在标题__multiarray_api.h中,即ndarrayobject.h中的included,但在安装时在git-repository中找不到,因为它是generated,其中PyArray_FromAny的定义可以是抬头:

    ...
    static void **PyArray_API=NULL; //usually...
    ...
    #define PyArray_CheckFromAny \
            (*(PyObject * (*)(PyObject *, PyArray_Descr *, int, int, int, PyObject *)) \
             PyArray_API[108])
    ...
    

    PyArray_CheckFromAny 不是函数的名称,而是定义保存在PyArray_API 中的函数指针,在模块首次加载时未初始化(即NULL)!顺便说一句,还有一个名为 PyArray_CheckFromAny 的(私有)函数,它是函数指针实际指向的 - 因为公共版本是一个定义,所以链接时没有名称冲突......

    最后一块拼图——函数_import_array(或多或少是np.import_array后面的工作马)是一个内联函数(案例A),所以只需要包含路径,能够使用它。

    _import_array 使用与 Cython 的 __pyx_capi__ 类似的方法来获取函数指针:该字段称为 _ARRAY_API,可以通过以下方式进行检查:

    >>> import numpy.core._multiarray_umath as macore
    >>> macore._ARRAY_API
    <capsule object NULL at 0x7f17d85f3810>
    

    有关如何初始化PyArray_API 的更多信息可以在我的SO-answer 中找到。

    但是,当使用来自 numpy/math.pxd 的功能时,必须静态链接 numpy 的数学库(例如,参见 SO-question)。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2020-05-11
      • 1970-01-01
      • 2020-05-10
      • 1970-01-01
      • 1970-01-01
      • 2014-01-22
      • 2018-11-03
      相关资源
      最近更新 更多