【发布时间】:2019-09-29 13:37:50
【问题描述】:
在探索 Cython 编译步骤时,我发现我需要在 setup.py 中显式链接诸如 math 之类的 C 库。但是,numpy 不需要这样的步骤。为什么这样? numpy 是通过通常的 python 导入机制导入的吗?如果是这种情况,我们不需要在 Cython 中显式链接 any 扩展模块吗?
我试图翻阅官方文档,但遗憾的是没有解释何时需要显式链接以及何时会自动处理。
【问题讨论】:
在探索 Cython 编译步骤时,我发现我需要在 setup.py 中显式链接诸如 math 之类的 C 库。但是,numpy 不需要这样的步骤。为什么这样? numpy 是通过通常的 python 导入机制导入的吗?如果是这种情况,我们不需要在 Cython 中显式链接 any 扩展模块吗?
我试图翻阅官方文档,但遗憾的是没有解释何时需要显式链接以及何时会自动处理。
【问题讨论】:
cdef-函数的调用或多或少对应于跳转到内存中的地址——应该从中读取/执行命令的地址。问题是如何提供这个地址。有一些情况我们需要考虑:
A.内联函数
这些函数的代码要么是内联的,要么函数的定义在同一个翻译单元中,因此链接器在链接时(甚至编译器在编译时)知道地址 - 无需额外图书馆。
一个例子是只有头文件的库。
后果:只应在setup.py 中提供包含路径。
B.静态链接
我们需要的定义/功能在另一个翻译单元/库中 - 跳转的目标地址是在链接时计算的,之后不能再更改。
一个例子是添加到扩展定义的附加 c/cpp 文件或静态库。
后果:静态库应添加到setup.py,即库路径和库名称以及包含路径。
C.动态链接
在共享对象/dll 中提供了必要的功能。要跳转的地址是在运行时从加载器计算出来的,可以在程序启动时通过交换加载的共享对象来替换。
例如 stdlibc++(通常由 g++ 自动添加)或 libm,它们不是由 gcc 自动添加到链接器命令的。
后果: 动态库应该添加到setup.py,即库路径和库名称,可能是 r-path + 包含路径。共享对象/dll 必须在运行时提供。更多(可能不止一个人想知道)关于使用动态库的 Cython/Python 的信息可以在 SO-post 中找到。
D.通过指针调用
只有当我们通过函数名调用函数时才需要链接器。如果我们通过函数指针调用它,我们不需要链接器/加载器,因为函数的地址是已知的——函数指针中的值。
示例:Cython 生成的模块使用此机制来启用对其通过pxd-file 导出的 cdef 函数的访问。它创建函数指针的数据结构(在模块本身中存储为变量__pyx_capi__),一旦通过ldopen(或任何Windows 等效项)加载so/dll,加载器就会填充该数据结构。字典中的查找只在模块加载和函数地址被缓存时发生一次,因此运行时的调用几乎没有开销。
我们可以检查它,例如通过
#foo.pyx:
cdef void doit():
print("doit")
#foo.pxd
cdef void doit()
>>> cythonize -3 -i foo.pyx
>>> python -c "import foo; print(foo.__pyx_capi__)"
{'doit': <capsule object "void (void)" at 0x7f7b10bb16c0>}
现在,从另一个模块调用cdef 函数只是跳转到相应的地址。
后果:我们需要导入所需的功能。
Numpy 稍微复杂一点,因为它使用了 A 和 D 的复杂组合,以便将符号的解析推迟到运行时,因此不需要链接时的共享对象/dll(但在运行时!)。
numpy-pxd 文件中的某些功能可以直接使用,因为它们是内联的(甚至只是定义),例如PyArray_NDIM,基本上所有来自ndarraytypes.h。这就是人们可以毫不费力地使用 cython 的 ndarray 的原因。
如果不在初始化步骤中调用np.import_array(),则无法访问其他功能(基本上来自ndarrayobject.h),例如PyArray_FromAny。为什么?
答案在标题__multiarray_api.h中,即ndarrayobject.h中的included,但在安装时在git-repository中找不到,因为它是generated,其中PyArray_FromAny的定义可以是抬头:
...
static void **PyArray_API=NULL; //usually...
...
#define PyArray_CheckFromAny \
(*(PyObject * (*)(PyObject *, PyArray_Descr *, int, int, int, PyObject *)) \
PyArray_API[108])
...
PyArray_CheckFromAny 不是函数的名称,而是定义保存在PyArray_API 中的函数指针,在模块首次加载时未初始化(即NULL)!顺便说一句,还有一个名为 PyArray_CheckFromAny 的(私有)函数,它是函数指针实际指向的 - 因为公共版本是一个定义,所以链接时没有名称冲突......
最后一块拼图——函数_import_array(或多或少是np.import_array后面的工作马)是一个内联函数(案例A),所以只需要包含路径,能够使用它。
_import_array 使用与 Cython 的 __pyx_capi__ 类似的方法来获取函数指针:该字段称为 _ARRAY_API,可以通过以下方式进行检查:
>>> import numpy.core._multiarray_umath as macore
>>> macore._ARRAY_API
<capsule object NULL at 0x7f17d85f3810>
有关如何初始化PyArray_API 的更多信息可以在我的SO-answer 中找到。
但是,当使用来自 numpy/math.pxd 的功能时,必须静态链接 numpy 的数学库(例如,参见 SO-question)。
【讨论】: